多个html合成txt,Python - 将多个HTML页解析为单个TXT文件

我试图从X个HTML文件解析特定内容到单个TXT文件。Python - 将多个HTML页解析为单个TXT文件

我已经dirtily编码如下:

#!/usr/bin/python

import sys, mechanize, BeautifulSoup

def parsedata():

##do stuff

prvitekst = soup.find(text='Random Number')

prvikesh = prvitekst.findNextSiblings('td')

drugitekst = soup.find(text='Random Month/Yeare')

drugikesh = drugitekst.findNextSiblings('td')

trechitekst = soup.find(text='Small Random Number')

trechikesh = trechitekst.findNextSiblings('td')

content = prvikesh + ";" + drugikesh + ";" + trechikesh + ";"

writeFile(content);

def readFile(id):

fi = open('result/page-%s.html' % id, 'r');

def writeFile(content):

f = open('parsed.txt', 'a')

f.write(content,"\n")

f.close();

def main(start):

##initialize vars

id = int(start)

page = readFile(id)

soup = BeautifulSoup(page)

print soup.prettify()

readFile(id)

for id in range(1000000000):

parsedata()

id = id + 1

continue

main(sys.argv[1]);

虽然HTML部分我尝试刮看起来像这样

Random Details TypeColor Random Number213523123123123 Random Month/Year12/13 Small Random Number13233

我想第一个后过来的细节。因此如果我正在寻找Typem,我想让它向我展示Color。

以及最终的课程我希望获得的内容以类似于CSV的格式进行分析。

类型;随机数;随机月/年

应该解析

Color;213523123123123;12/13

ofcourse在我已经做我不是搜索类型的代码,但可以很容易地改变。

编辑:固定intendation

2011-06-11

Quantum

+0

请修正你的代码的缩进。 –

2011-06-11 20:12:28

+0

固定缩进 –

2011-06-11 20:27:53

+0

这种类型的任务(找到一些文本,然后找到从该点开始的另一个文本)很容易在xpath中定义: '//td/b[text()="Type"]/../follow -sibling :: TD [1] /文本()' –

2011-06-12 00:31:54

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值