Python零基础之爬虫介绍

1.什么是爬虫?

- 让计算机去模拟人进行网页浏览操作

2.为什么需要爬虫?

-  为其他数据提供数据源、数据分析、AI/人工智能等
- 人脸识别、无人驾驶、智能家居、智能语音、无人机等

3. 企业获取数据的方式有哪些?

- 公司自有数据
- 第三方平台的数据(免费和付费)
	- 免费:如百度指数
	- 收费:如贵阳大数据交易所,数据堂等
- 爬虫工程师

4. Python做爬虫的优势

- PHP:对多线程、异步支持不太好
- Java:代码量大,代码笨重
- C/C++:代码量大,难以编写
- Python:支持模块多、代码简介、开发效率高(scrapy框架)

5. 爬虫的分类

- 通用网络爬虫: 如搜索引擎,需要遵守robots协议
- 聚焦网络爬虫
- 增量式网络爬虫
- 深层网络爬虫

6. 几个概念

- GET请求,POST请求
- URL的组成:协议,主机名,路径,端口,锚点
- User-Agent:用户代理,记录了浏览器、操作系统等,为了改进用户体验
- Refer:表明请求的url来源
- Cookie:存储访问者的一些状态信息
- 状态码:
	- 200:请求成功
	- 301:永久重定向
	- 302:临时重定向
	- 403:服务器拒绝请求
	- 404:访问的页面不存在
	- 500:服务器内部请求

7. 抓包工具

  • 浏览器检查工具的一些常用选项:
    • elements:网页元素
    • console:控制台
    • Sources:资源文件
    • Network:网络数据
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

kingx3

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值