.爬虫
把网页上显示的信息下载到本地
网页上显示的信息,是根据html文件的信息决定的
浏览器对你输入的这个链接地址对应的服务器进行请求,
如果请求成功,服务器会给浏览器一个响应,响应里面就包含html文件
爬虫的目的就是拿到服务器响应里面包含的html文件内容
1.以什么方式可以拿到html内容
1.起始链接
2.代码发起请求,伪装成浏览器
3.接收到这个响应
4.拿到响应里面的html文件内容
2.python爬虫需要用到的基本工具
1.requests
第三方的包
pip install requests
2.selenium 自动化测试
pip install selenium
3.拿到全部的html信息之后,怎么提取我们想要的部分
1.re 正则表达式
2.使用html文件的特性
标签 最简单的,速度慢
3.xpath 节点思想
4.使用标签拿到具体内容
使用第三方的包 beautifulsoup4
pip install beautifulsoup4
这个包可以把str解析成html的标签
1.使用html格式来解析这个指定的str
doc = BeautifulSoup(response.text, 'html.parser')
2.找出结果中的指定内容,需要用到CSS选择器
doc = BeautifulSoup(response.text, 'html.parser')
# print(doc)
#