1.什么是爬虫?
- 让计算机去模拟人进行网页浏览操作
2.为什么需要爬虫?
- 为其他数据提供数据源、数据分析、AI/人工智能等
- 人脸识别、无人驾驶、智能家居、智能语音、无人机等
3. 企业获取数据的方式有哪些?
- 公司自有数据
- 第三方平台的数据(免费和付费)
- 免费:如百度指数
- 收费:如贵阳大数据交易所,数据堂等
- 爬虫工程师
4. Python做爬虫的优势
- PHP:对多线程、异步支持不太好
- Java:代码量大,代码笨重
- C/C++:代码量大,难以编写
- Python:支持模块多、代码简介、开发效率高(scrapy框架)
5. 爬虫的分类
- 通用网络爬虫: 如搜索引擎,需要遵守robots协议
- 聚焦网络爬虫
- 增量式网络爬虫
- 深层网络爬虫
6. 几个概念
- GET请求,POST请求
- URL的组成:协议,主机名,路径,端口,锚点
- User-Agent:用户代理,记录了浏览器、操作系统等,为了改进用户体验
- Refer:表明请求的url来源
- Cookie:存储访问者的一些状态信息
- 状态码:
- 200:请求成功
- 301:永久重定向
- 302:临时重定向
- 403:服务器拒绝请求
- 404:访问的页面不存在
- 500:服务器内部请求
7. 抓包工具
- 浏览器检查工具的一些常用选项:
- elements:网页元素
- console:控制台
- Sources:资源文件
- Network:网络数据