【愚公系列】2021年12月 python爬虫自动化-爬虫环境搭建


一、数据的来源

1. 企业产生的用户数据

https://tbi.tencent.com/ 腾讯指数
http://index.baidu.com/#/ 百度指数

2. 数据平台购买数据:

数据堂:http://www.datatang.com/index.html
国云数据市场:
http://www.moojnn.com/data-market/

3. 政府、机构公开的数据:

国家统计局数据:
http://www.moojnn.com/data-market/
世界银行公开数据:
https://data.worldbank.org.cn/

4. 数据管理咨询公司:埃森哲,麦肯锡

5. 爬虫爬取

二、爬虫所需要的库:

1. urllib 标准库,无需安装,直接 import 使用

2. requests 库,需要安装

pip install requests

3. selenium 库,需要安装

pip install selenium

a) selenium 想要驱动 chrome 的话,需要专门的
chromedriver,下载地址:
http://npm.taobao.org/mirrors/chromedriver/
b) 需要注意的是,chromedriver 的版本必须要与自
己机器上的 chrome 版本相对应才可以
c) 将下载的驱动加压缩后(一个 exe 文件)放到
python 的安装目录下(比如 scripts 中),或者
新建一个文件夹专门存放这个 exe,但是要把这
个新建文件夹的路径添加到 path 中。
d) 如果要驱动其他浏览器,比如 IE 或者 Firefox,
也需要去下载对应的驱动

4. phantomJS ,官网下载

http://phantomjs.org/download.html

5. re #正则,标准库,不需要安装

6. BeautifulSoup,html/xml 解析库,需要安装

pip install beatifulsoup4

7. pyquery(可选)解析库,语法与 JQuery 类似

pip install pyquery

8. pymysql,MySQL 数据库驱动,需要安装

pip install pymysql
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

愚公搬代码

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值