python简易抓取网页表格

写了个小脚本,抓取一下一个网页上的表格内容。 

 内容如下:

# -*- coding:utf-8 -*-
#!/usr/bin/env python

import sys,urllib
from bs4 import BeautifulSoup
reload(sys)
sys.setdefaultencoding( "utf-8" )

def parse_page(filename):
    f = open(filename,'r')
    g = open('result', 'a+')
    html = f.read()
    soup = BeautifulSoup(html, from_encoding='utf-8')
    for i in  soup.find_all('tr'):
        for j in i.find_all('td'):
            content = j.string
            g.write(u'%s,' % content)
        g.write('\n')
    
    g.close()
    f.close()

baseurl = "https://www.touzi.com/simu/"
count = 0 
for i in range(1,75):
    count = count + 1
    url = "company-cid-3-g1-h1-i2-p" + str(count) + ".html"
    final_url = baseurl + url
    print final_url
    f = open(url, 'w')
    wp = urllib.urlopen(final_url)
    print "start download... %s " % url 
    content = wp.read()
    f.write(content)
    f.close()
    parse_page(url)

处理完的数据放到一个result文件中保存。 之后导入到excel中处理就可以了。 基本实现了功能。但是应该不具备什么通用性。

转载于:https://my.oschina.net/u/262857/blog/512802

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值