爬虫
文章平均质量分 82
tanhuanzheng
这个作者很懒,什么都没留下…
展开
-
1.字符、字符串、编码
字符、字符串、编码 str类型和bytes类型 bytes: 二进制 互联网上数据都是以二进制的方式传输的 str: unicode的呈现形式 Unicode、UTF-8、ASCII的相关知识 字符(Character)是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等 字符集(Character set)是多个字符的集合 字符集包括:ASCII字符集、GB2312字符集、GB18030字符集、Unicode字符集等 ASCII编码是1个字节,而Unico原创 2020-06-30 10:56:26 · 156 阅读 · 0 评论 -
2.Requests使用入门
Requests使用入门 Requests的作用及安装方法 安装方法: pip install requests 作用:发送网络请求、返回响应数据 Requets官方文档:http://docs.python-requests.org/zh_CN/latest/index.html requests.get的使用 import requests url = “http://www.kuaidi100.com/query?” headers = { “referer”: “https://w原创 2020-06-30 10:44:05 · 358 阅读 · 0 评论 -
3.XPath语法和lxml模块
XPath语法和lxml模块 XPath xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历。 XPath开发工具 Chrome插件XPath Helper。 安装方法: 打开插件伴侣,选择插件 选择提取插件内容到桌面,桌面上会多一个文件夹 把文件夹放入想要放的路径下 打开谷歌浏览器,选择扩展程序,开发者模式打开,选择加载已解压的扩展程序,选择路径打开即可 Firefox插件Try XPath。 XPath节点原创 2020-06-30 10:46:18 · 287 阅读 · 0 评论 -
4.BeautifulSoup4
BeautifulSoup4与bs4模块 和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。 1.安装和文档: bs4安装: pip install bs4 中文文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html 2.几大解析工具对比: 解析工具 解析速度 使用难度 BeautifulSoup 最慢 最简单 lx原创 2020-06-30 10:49:33 · 188 阅读 · 0 评论 -
5.正则表达式
正则表达式与re模块 字符匹配 匹配单个字符 字符 匹配 . 匹配任意字符(\n除外) [ ] 匹配中括号中的某一项 \d 匹配数字 \D 匹配非数字 \s 匹配空白字符 \S 匹配非空白字符 \w 匹配a-z和A-Z以及0-9和_ \W 与\w相反 匹配多个字符 字符 匹配 * 匹配前一个字符0次或无限次 + 匹配前一个字符1次或无限次 ? 匹配前一个字符0次或1次 {m} 匹配m个字符 {m,n} 匹配m-n个字符 *?原创 2020-06-30 10:50:29 · 109 阅读 · 0 评论 -
6.数据存储
Json 1.什么是Json JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (w3c制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。 简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解 析和生成,并有效地提升网络传输效率。更多解释请见: https://baike.baidu.com/item/JSON/2462549?fr=aladdi原创 2020-06-30 10:52:02 · 124 阅读 · 0 评论 -
7.Selenium
Selenium使用方法 什么是动态网页爬虫和AJAX技术: 动态网页,是网站在不重新加载的情况下,通过ajax技术动态更新网站中的局部数据。比如拉勾网的职位页面,在换页的过程中,url是没有发生改变的,但是职位数据动态的更改了。 AJAX(Asynchronouse JavaScript And XML)异步JavaScript和XML。前端与服务器进行少量数据交换,Ajax 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。传统的网页(不使用Ajax)如果需要更原创 2020-06-30 10:53:07 · 107 阅读 · 0 评论