【python】简单爬虫制作(汽车之家&易车网报价爬虫)

为了简化女友及其部门同事在汽车网站查找多城市车型报价的繁琐工作,作者决定学习并编写Python爬虫。通过分析网页源码和JS,分别抓取了汽车之家和易车网的数据,利用正则表达式提取关键信息,并用Excel存储结果。
摘要由CSDN通过智能技术生成

首先交代背景,逗逼女朋友每个月要花费半天多的时间去汽车网上找三十多个城市、十多款车型的报价数据,而且他们部门其它人也要做这种繁琐的工作。我在网络卡屎的情况下帮她做了一回,我就打死都想写个程序把这种stupid的工作自动搞定。

上论坛一问,了解到原来这个叫爬虫,用python写比较简单。

那就开始学python,学爬虫。

其实没具体学python,或者对于爬虫的基本了解,直接看的这位博主的文章[Python]网络爬虫(六):一个简单的百度贴吧的小爬虫这是一个系列,花了点时间全看下来大概python照着模式写就够用了。

爬虫(Spider)的英文名其实很形象,整个互联网就是一张大网,而爬虫就像一种蜘蛛能够在这个网上爬来爬去,从一个网址跳转到另一个网站,抓取有价值的东西。


本程序所用python为3.4.2,系统为win7-64位,所有用到的插件请下载对应的版本

然后是网页的url分析,就是去多看多找,查看网页源码看是否能看到直接要的数据,如果找得到,可以直接使用正则表达正拿到数据,如果找不到,是js动态生成的,就去看源码里的js代码,搜索关键字url去找js拿去request的url,分析它的情况。

在本例中,汽车之家的数据是分析js代码所得url,通过url可直接请求得到城市与低价信息,用正则表达式获取

易车网数据可通过网页源码获取,所以其url就是浏览器地址上的url,通过url可请求到整个网页,再用正则表达式获取城市与价格信息


所有数据获取之后通过xlwr3和xlrd、xlutils保存到EXCEL中


源码

# -*- codi
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值