Python零基础之爬虫介绍

最新推荐文章于 2024-08-17 20:45:04 发布

kingx3

最新推荐文章于 2024-08-17 20:45:04 发布

阅读量158

点赞数

分类专栏： Python零基础文章标签： python

本文链接：https://blog.csdn.net/kingx3/article/details/107290012

版权

Python零基础专栏收录该内容

35 篇文章 0 订阅

订阅专栏

爬虫介绍

1.什么是爬虫?
2.为什么需要爬虫?
3. 企业获取数据的方式有哪些？
4. Python做爬虫的优势
5. 爬虫的分类
6. 几个概念
7. 抓包工具

1.什么是爬虫?

- 让计算机去模拟人进行网页浏览操作

2.为什么需要爬虫?

-  为其他数据提供数据源、数据分析、AI/人工智能等
- 人脸识别、无人驾驶、智能家居、智能语音、无人机等

3. 企业获取数据的方式有哪些？

- 公司自有数据
- 第三方平台的数据（免费和付费）
	- 免费：如百度指数
	- 收费：如贵阳大数据交易所，数据堂等
- 爬虫工程师

4. Python做爬虫的优势

- PHP：对多线程、异步支持不太好
- Java：代码量大，代码笨重
- C/C++：代码量大，难以编写
- Python：支持模块多、代码简介、开发效率高（scrapy框架）

5. 爬虫的分类

- 通用网络爬虫: 如搜索引擎，需要遵守robots协议
- 聚焦网络爬虫
- 增量式网络爬虫
- 深层网络爬虫

6. 几个概念

- GET请求，POST请求
- URL的组成：协议，主机名，路径，端口，锚点
- User-Agent：用户代理，记录了浏览器、操作系统等，为了改进用户体验
- Refer：表明请求的url来源
- Cookie：存储访问者的一些状态信息
- 状态码：
	- 200：请求成功
	- 301：永久重定向
	- 302：临时重定向
	- 403：服务器拒绝请求
	- 404：访问的页面不存在
	- 500：服务器内部请求