python爬取汽车之家数据_python抓取某汽车网数据解析html存入excel示例

本文介绍了如何使用Python爬取汽车之家网站的经销商信息,通过PyQuery库解析HTML页面,提取所需数据,并将数据存储到Excel文件中。主要步骤包括:确定网页CSS选择器,处理HTML中的换行问题,以及根据数据格式对内容进行筛选和存储。
摘要由CSDN通过智能技术生成

1、某汽车网站地址

2、使用firefox查看后发现,此网站的信息未使用json数据,而是简单那的html页面而已

3、使用pyquery库中的PyQuery进行html的解析

页面样式:

def get_dealer_info(self):

"""获取经销商信息"""

css_select = 'html body div.box div.news_wrapper div.main div.news_list div.service_main div table tr '

#使用火狐浏览器中的自动复制css路径得到需要位置数据

page = urllib2.urlopen(self.entry_url).read()

#读取页面

page = page.replace('
','&')

page = page.replace('
','&')

#由于页面中的电话信息中使用了br换行,所以在抓取的时候会产生问题

#问题是:如果取得一对标签中的数据,中包含
,会出现值得到br之前的数据,而后的数据将得不到,原因个人认为是解析html是会任务/>结尾标准

d = pq(page)

#使用PyQuery解析页面,此处pq=PyQuery,因为from pyquery import PyQuery as pq

dealer_list = []

#创建列表用于提

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值