爬虫抓取表格中的数据

有时候因为某些需求需要爬取某个网页中某个表格里的数据,这时候如果这个页面只有这一个表格的时候,那么抓取就比较容易了,但是当这个页面中有大量的表格的时候,再使用之前的方法,就会发现虽然也能抓取到要的数据,但是还有一大堆冗余。

这时候,就可以使用下面这种方法

就以这个网页里的表格为例

#coding:utf-8

import re
import urllib2

url='http://58921.com/'
header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36'}

request=urllib2.Request(url,headers=header)
page_code=urllib2.urlopen(request).read()

# 从网页源码中找到你要抓取表格的下列信息

# 表格开头
start_code='<table class="table table table-bordered table-condensed">'
# 表格结尾
end_code='</tbody>'
# 表格中要抓取的数据
find_code='<td><a href=".*?" title=".*?">(.*?)</a></td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td>'

# 这里通过 start和end指定在整个页面中你所寻找的表格
start=page_code.find(start_code)
end=page_code.find(end_code)
find=page_code[start:end]

final_find=re.findall(find_code,find)

for x in final_find:
    print ','.join(x)

print 'finish'

 

转载于:https://www.cnblogs.com/HapyyHao1314/p/7391213.html

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值