【python】简单爬虫制作（汽车之家&易车网报价爬虫）

最新推荐文章于 2024-07-09 10:47:08 发布

top_along

最新推荐文章于 2024-07-09 10:47:08 发布

阅读量1w

点赞数 1

分类专栏：基本概念 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/top_along/article/details/43272219

版权

为了简化女友及其部门同事在汽车网站查找多城市车型报价的繁琐工作，作者决定学习并编写Python爬虫。通过分析网页源码和JS，分别抓取了汽车之家和易车网的数据，利用正则表达式提取关键信息，并用Excel存储结果。

摘要由CSDN通过智能技术生成

首先交代背景，逗逼女朋友每个月要花费半天多的时间去汽车网上找三十多个城市、十多款车型的报价数据，而且他们部门其它人也要做这种繁琐的工作。我在网络卡屎的情况下帮她做了一回，我就打死都想写个程序把这种stupid的工作自动搞定。

上论坛一问，了解到原来这个叫爬虫，用python写比较简单。

那就开始学python，学爬虫。

其实没具体学python，或者对于爬虫的基本了解，直接看的这位博主的文章[Python]网络爬虫（六）：一个简单的百度贴吧的小爬虫，这是一个系列，花了点时间全看下来大概python照着模式写就够用了。

爬虫（Spider）的英文名其实很形象，整个互联网就是一张大网，而爬虫就像一种蜘蛛能够在这个网上爬来爬去，从一个网址跳转到另一个网站，抓取有价值的东西。

本程序所用python为3.4.2，系统为win7-64位，所有用到的插件请下载对应的版本

然后是网页的url分析，就是去多看多找，查看网页源码看是否能看到直接要的数据，如果找得到，可以直接使用正则表达正拿到数据，如果找不到，是js动态生成的，就去看源码里的js代码，搜索关键字url去找js拿去request的url，分析它的情况。

在本例中，汽车之家的数据是分析js代码所得url，通过url可直接请求得到城市与低价信息，用正则表达式获取

易车网数据可通过网页源码获取，所以其url就是浏览器地址上的url，通过url可请求到整个网页，再用正则表达式获取城市与价格信息

所有数据获取之后通过xlwr3和xlrd、xlutils保存到EXCEL中

源码

# -*- codi

最低0.47元/天解锁文章

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。