多个html合成txt,Python - 将多个HTML页解析为单个TXT文件

最新推荐文章于 2023-03-08 17:53:31 发布

那你干哈

最新推荐文章于 2023-03-08 17:53:31 发布

阅读量225

点赞数

文章标签：多个html合成txt

我试图从X个HTML文件解析特定内容到单个TXT文件。Python - 将多个HTML页解析为单个TXT文件

我已经dirtily编码如下：

#!/usr/bin/python

import sys, mechanize, BeautifulSoup

def parsedata():

##do stuff

prvitekst = soup.find(text='Random Number')

prvikesh = prvitekst.findNextSiblings('td')

drugitekst = soup.find(text='Random Month/Yeare')

drugikesh = drugitekst.findNextSiblings('td')

trechitekst = soup.find(text='Small Random Number')

trechikesh = trechitekst.findNextSiblings('td')

content = prvikesh + ";" + drugikesh + ";" + trechikesh + ";"

writeFile(content);

def readFile(id):

fi = open('result/page-%s.html' % id, 'r');

def writeFile(content):

f = open('parsed.txt', 'a')

f.write(content,"\n")

f.close();

def main(start):

##initialize vars

id = int(start)

page = readFile(id)

soup = BeautifulSoup(page)

print soup.prettify()

readFile(id)

for id in range(1000000000):

parsedata()

id = id + 1

continue

main(sys.argv[1]);

虽然HTML部分我尝试刮看起来像这样

Random Details TypeColor Random Number213523123123123 Random Month/Year12/13 Small Random Number13233

我想第一个后过来的细节。因此如果我正在寻找Typem，我想让它向我展示Color。

以及最终的课程我希望获得的内容以类似于CSV的格式进行分析。

类型;随机数;随机月/年

应该解析

Color;213523123123123;12/13

ofcourse在我已经做我不是搜索类型的代码，但可以很容易地改变。

编辑：固定intendation

2011-06-11

Quantum

+0

请修正你的代码的缩进。 –

2011-06-11 20:12:28

+0

固定缩进 –

2011-06-11 20:27:53

+0

这种类型的任务(找到一些文本，然后找到从该点开始的另一个文本)很容易在xpath中定义： '//td/b[text()="Type"]/../follow -sibling :: TD [1] /文本()' –

2011-06-12 00:31:54

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
多个html合成txt,Python - 将多个HTML页解析为单个TXT文件

我试图从X个HTML文件解析特定内容到单个TXT文件。Python - 将多个HTML页解析为单个TXT文件我已经dirtily编码如下：#!/usr/bin/pythonimport sys, mechanize, BeautifulSoupdef parsedata():##do stuffprvitekst = soup.find(text='Random Number')prvikesh ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。