python网页表名称一样抓取_python简易抓取网页表格

写了个小脚本,抓取一下一个网页上的表格内容。

内容如下:

# -*- coding:utf-8 -*-

#!/usr/bin/env python

import sys,urllib

from bs4 import BeautifulSoup

reload(sys)

sys.setdefaultencoding( "utf-8" )

def parse_page(filename):

f = open(filename,'r')

g = open('result', 'a+')

html = f.read()

soup = BeautifulSoup(html, from_encoding='utf-8')

for i in  soup.find_all('tr'):

for j in i.find_all('td'):

content = j.string

g.write(u'%s,' % content)

g.write('\n')

g.close()

f.close()

baseurl = "https://www.touzi.com/simu/"

count = 0

for i in range(1,75):

count = count + 1

url = "company-cid-3-g1-h1-i2-p" + str(count) + ".html"

final_url = baseurl + url

print final_url

f = open(url, 'w')

wp = urllib.urlopen(final_url)

print "start download... %s " % url

content = wp.read()

f.write(content)

f.close()

parse_page(url)

处理完的数据放到一个result文件中保存。 之后导入到excel中处理就可以了。 基本实现了功能。但是应该不具备什么通用性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值