1.爬虫目的:
从网上拿到需要的有价值的数据:商业分析,生活助手
2.百度和谷歌:超级爬虫
3.浏览器和服务器之间:先请求,后响应。
浏览器:解析数据
客户端:需要网页 提取数据 存储数据
浏览器工作原理:人、浏览器、服务器三者之间的交流过程
4.爬虫的四个步骤:
获取数据 (向服务器发起请求,然后返回数据)
解析数据(将服务器返回的数据解析成我们能读懂的数据)
提取数据 (爬虫程序从中提取我们需要的数据)
存储数据(将有用数据保存)
5.获取数据:
requests库(pip install requests)(下载网页源代码、文本、图片、音频)
import requests
res = requests.get(‘URL’) 服务器返回结果是个Response对象,存储在变量res里。URL:数据所在网址
6.response对象的常用属性:
response.status_code:检查请求是否成功。200是成功,403为禁止访问,503为服务不可用
response.content:将response对象转换为二进制数据
response.text:将response对象转换为字符串数据
response.encoding:定义response对象的编码
7.robots协议:
(网络爬虫排除标准)互联网爬虫的一项公认的道德规范
8.域名:
https:// 后紧跟的
9.域名后缀含义:
.cn 国内 .org 非赢利性组织 .gov 国家政府机构
.net 从事互联网服务的机构 .com 商业机构
10.user-agent:爬虫类型