python爬取汽车之家数据_python抓取某汽车网数据解析html存入excel示例

最新推荐文章于 2024-04-14 18:54:03 发布

weixin_39552037

最新推荐文章于 2024-04-14 18:54:03 发布

阅读量407

点赞数

文章标签： python爬取汽车之家数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39552037/article/details/111435781

版权

本文介绍了如何使用Python爬取汽车之家网站的经销商信息，通过PyQuery库解析HTML页面，提取所需数据，并将数据存储到Excel文件中。主要步骤包括：确定网页CSS选择器，处理HTML中的换行问题，以及根据数据格式对内容进行筛选和存储。

摘要由CSDN通过智能技术生成

1、某汽车网站地址

2、使用firefox查看后发现，此网站的信息未使用json数据，而是简单那的html页面而已

3、使用pyquery库中的PyQuery进行html的解析

页面样式：

def get_dealer_info(self):

"""获取经销商信息"""

css_select = 'html body div.box div.news_wrapper div.main div.news_list div.service_main div table tr '

#使用火狐浏览器中的自动复制css路径得到需要位置数据

page = urllib2.urlopen(self.entry_url).read()

#读取页面

page = page.replace('
','&')

page = page.replace('
','&')

#由于页面中的电话信息中使用了br换行，所以在抓取的时候会产生问题

#问题是：如果取得一对标签中的数据，中包含
,会出现值得到br之前的数据，而后的数据将得不到，原因个人认为是解析html是会任务/>结尾标准

d = pq(page)

#使用PyQuery解析页面，此处pq=PyQuery,因为from pyquery import PyQuery as pq

dealer_list = []

#创建列表用于提

最低0.47元/天解锁文章

weixin_39552037

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬取汽车之家数据_python抓取某汽车网数据解析html存入excel示例

1、某汽车网站地址2、使用firefox查看后发现，此网站的信息未使用json数据，而是简单那的html页面而已3、使用pyquery库中的PyQuery进行html的解析页面样式：def get_dealer_info(self):"""获取经销商信息"""css_select = 'html body div.box div.news_wrapper div.main div.news_lis...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。