在做爬虫之前,我们需要先做好一些环境搭建及安装工作
Python的要点(搭建环境、安装配置、第三方库导入方法详细过程)
一、Python爬虫介绍
1.什么是爬虫?
爬虫简单来说,就是代替人去模拟浏览器,进行一系列的网页操作。
2.为什么需要用爬虫?
为其他程序提供数据源,如搜索引擎(百度、Google等)、数据分析、大数据等等。
3.企业获取数据的方式?
- 公司自有的数据
- 第三方平台购买的数据 (百度指数、数据堂)
- 爬虫爬取的数据
4.Python做爬虫的优势?
种类 | 特点 |
---|---|
PHP | 对多线程、异步支持不太好 |
Java | 代码量大,代码笨重 |
C/C++ | 代码量大,难以编写 |
Python | 支持模块多、代码简介、开发效率高 (scrapy框架) |
二、爬虫中的几个概念
1.爬虫的分类?