爬虫——初识

最新推荐文章于 2022-07-26 15:29:04 发布

小枍~

最新推荐文章于 2022-07-26 15:29:04 发布

阅读量112

点赞数

分类专栏： python——爬虫

本文链接：https://blog.csdn.net/doarwh/article/details/117336265

版权

python——爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1.爬虫目的：
从网上拿到需要的有价值的数据:商业分析，生活助手
2.百度和谷歌：超级爬虫
3.浏览器和服务器之间：先请求，后响应。
浏览器：解析数据
客户端：需要网页提取数据存储数据
浏览器工作原理：人、浏览器、服务器三者之间的交流过程
4.爬虫的四个步骤：
获取数据（向服务器发起请求，然后返回数据）
解析数据（将服务器返回的数据解析成我们能读懂的数据）
提取数据（爬虫程序从中提取我们需要的数据）
存储数据（将有用数据保存）
5.获取数据：
requests库（pip install requests）(下载网页源代码、文本、图片、音频)
import requests
res = requests.get(‘URL’) 服务器返回结果是个Response对象，存储在变量res里。URL:数据所在网址
6.response对象的常用属性：
response.status_code:检查请求是否成功。200是成功，403为禁止访问，503为服务不可用
response.content:将response对象转换为二进制数据
response.text:将response对象转换为字符串数据
response.encoding:定义response对象的编码

7.robots协议：
（网络爬虫排除标准）互联网爬虫的一项公认的道德规范
8.域名：
https:// 后紧跟的
9.域名后缀含义：
.cn 国内 .org 非赢利性组织 .gov 国家政府机构
.net 从事互联网服务的机构 .com 商业机构
10.user-agent:爬虫类型

小枍~

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫——初识

1.爬虫目的：从网上拿到需要的有价值的数据:商业分析，生活助手2.百度和谷歌：超级爬虫3.浏览器和服务器之间：先请求，后响应。浏览器：解析数据客户端：需要网页提取数据存储数据浏览器工作原理：人、浏览器、服务器三者之间的交流过程4.爬虫的四个步骤：获取数据（向服务器发起请求，然后返回数据）解析数据（将服务器返回的数据解析成我们能读懂的数据）提取数据（爬虫程序从中提取我们需要的数据）存储数据（将有用数据保存）5.获取数据： requests库（pip insta
复制链接

扫一扫

专栏目录