根据机械工业出版社出版的《从零开始学Python网络爬虫》指导,实现其提供的简例。
修改了一些小问题,代码见GitHub。
1、KuGou.py:爬取酷狗top500,beautifulsoup库解析
2、DouPo.py:使用正则表达式爬取小说,并做一定数据清洗
3、DouBanTOP250booksExcel.py:爬取豆瓣top250图书存储excel表
4、QiDian.py:Xpath爬取小说信息
5、PEXELS.py:爬取图片并保存
6、API_BaiDuMap.py:调用百度api,解析json数据,返回地点经纬度
7、QiuShiDiTu.py:调用api,爬取糗事百科网用户地址信息
8、DouBanTOP250booksMySQL.py:爬取豆瓣top250图书存储mysql数据库
9、JianShu_MultiProcess.py:多进程爬取简书存储mysql
10、Ajax_JianShu.py:通过抓包分析出动态加载的简书页面,构造爬虫
11、WeiBo.py:使用cookie信息模拟登陆,爬取微博好友圈
12、Selenium_DouBan.py:使用selenium登陆豆瓣
13、Selenium_JingDong.py:selenium爬取京东笔记本电脑列表存储mysql
小白,错误难免,望指正。