Python网络爬虫与信息提取
掌握定向网络数据爬取和网页解析基本能力
一.Requests库
Requests库的7个主要方法
Response对象的属性
☆爬取网页的通用代码框架
HTTP协议
cookies 英[ˈkʊkiz]
n. 曲奇饼; 精明强干的人; 坚强的人; 网络饼干(网络或互联网使用者发给中央服务器信息的计算机文件);
proxy , proxies:英[ˈprɒksiz]
n. 代理权; 代表权; 代理人; 受托人; 代表; (测算用的)代替物,指标;
最常用的是get方法,对于内容大的用head方法
网络爬虫的尺寸
如何限制网络爬虫?
实例代码
二.Beautiful Soup库
等价↑
BeautifulSoup对应一个 HTML/XML文档 的全部内容
在这里插入图片描述
prettify
信息提取
三.Re库(正则表达式)
正则表达式:表示一组字符串的特征
主要应用在字符串匹配中
正则表达式常用操作符
Re库
substitute 英[ˈsʌbstɪtjuːt] 美[ˈsʌbstɪtuːt]
n. 代替者; 代替物; 代用品; 替补(运动员);
v. (以…)代替; 取代;
四.Scrapy爬虫框架
requests vs Scrapy
Scrapy爬虫常用命令