爬虫入门简例

本文分享了基于Python的网络爬虫实战经验,涵盖图书、音乐、小说、图片、微博等多种数据源的爬取技巧,利用BeautifulSoup、XPath、Selenium等工具解析网页,同时介绍了数据清洗、存储至Excel及数据库的方法。
摘要由CSDN通过智能技术生成


根据机械工业出版社出版的《从零开始学Python网络爬虫》指导,实现其提供的简例。
修改了一些小问题,代码见GitHub
 
 
1、KuGou.py:爬取酷狗top500,beautifulsoup库解析
 
2、DouPo.py:使用正则表达式爬取小说,并做一定数据清洗
 
3、DouBanTOP250booksExcel.py:爬取豆瓣top250图书存储excel表
 
4、QiDian.py:Xpath爬取小说信息
 
5、PEXELS.py:爬取图片并保存
 
6、API_BaiDuMap.py:调用百度api,解析json数据,返回地点经纬度
 
7、QiuShiDiTu.py:调用api,爬取糗事百科网用户地址信息
 
8、DouBanTOP250booksMySQL.py:爬取豆瓣top250图书存储mysql数据库
 
9、JianShu_MultiProcess.py:多进程爬取简书存储mysql
 
10、Ajax_JianShu.py:通过抓包分析出动态加载的简书页面,构造爬虫
 
11、WeiBo.py:使用cookie信息模拟登陆,爬取微博好友圈
 
12、Selenium_DouBan.py:使用selenium登陆豆瓣
 
13、Selenium_JingDong.py:selenium爬取京东笔记本电脑列表存储mysql
 

小白,错误难免,望指正。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值