html文件提取数字,使用BeautifulSoup和Python从HTML文件中提取数据

最新推荐文章于 2024-01-28 14:44:34 发布

盾牌座

最新推荐文章于 2024-01-28 14:44:34 发布

阅读量504

点赞数

文章标签： html文件提取数字

我需要从

HTML文件中提取数据.这些文件很可能是自动生成的.我已将其中一个文件的代码上传到Pastebin：

http://pastebin.com/9Nj2Edfv.这是到实际页面的链接：

http://eur-lex.europa.eu/Notice.do?checktexts=checkbox&val=60504%3Acs&pos=1&page=1&lang=en&pgs=10&nbl=1&list=60504%3Acs%2C&hwords=&action=GO&visu=%23texte

我需要提取的数据是在不同的标题下找到的.

这是我到目前为止

from BeautifulSoup import BeautifulSoup

ecj_data = open("data\ecj_1.html",'r').read()

soup = BeautifulSoup(ecj_data)

celex = soup.find('h1')

auth_lang = soup('ul', limit=14)[13].li

procedure = soup('ul', limit=20)[17].li

print "Celex number:", celex.renderContents(),

print "Authentic language:", auth_lang

print "Type of procedure:", procedure

我拥有本地存储的所有数据,这就是打开文件ecj_1.html的原因.

Celex号码和正宗语言的作品有些不错.

celex返回

"Celex number:

61977J0059"

auth_lang返回“Authentic language：< li> French< / li>”

我只需要h1标签的内容(不是最后的休息).

[另外,我需要auth_lang只返回“法语”,而不是< li> -tags.]

这不是问题了.我意识到我可以在“auth_lang”的末尾添加“.text”.

另一方面,程序返回：

Type of procedure:

Type of procedure:

Reference for a preliminary ruling

这是非常错误的,因为我只需要它返回“参考初步裁决”.

有什么办法可以实现这一点吗？

第二编辑：

我用celex = soup(‘h1’,limit = 2)[0]替换celex = soup.find(‘h1’),并将.text添加到打印celex.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
html文件提取数字,使用BeautifulSoup和Python从HTML文件中提取数据

我需要从HTML文件中提取数据.这些文件很可能是自动生成的.我已将其中一个文件的代码上传到Pastebin：http://pastebin.com/9Nj2Edfv.这是到实际页面的链接：http://eur-lex.europa.eu/Notice.do?checktexts=checkbox&val=60504%3Acs&pos=1&page=1&lang=en...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。