python提取网页对应内容_用python提取网页的部分内容

最新推荐文章于 2024-08-09 18:01:36 发布

花花鼓

最新推荐文章于 2024-08-09 18:01:36 发布

阅读量859

点赞数

文章标签： python提取网页对应内容

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42131013/article/details/112990226

版权

该项目旨在从一系列URL中提取网页的特定部分，即‘Legal Authority：’后面列出的法律法规，并存储到文本文件中。当遇到包含多个法规的页面时，现有代码只能提取第一个。问题在于如何修改代码以正确抓取所有法规。目前的尝试是利用' '作为结束标识，但未能成功。寻求解决方案。

摘要由CSDN通过智能技术生成

所以我有一个数据检索/入口项目，我想提取一个网页的某个部分，并将其存储在一个文本文件中。我有一个url的文本文件，程序应该为每个url提取页面的相同部分。

具体而言，该程序在“this”页面上的“Legal Authority：”之后复制法律法规。正如你所看到的，只有一个法规列出。但是，其中一些网址也看起来像this，这意味着有多个分离的法规。

我的代码适用于第一种页面：

from sys import argv

from urllib2 import urlopen

script, urlfile, legalfile = argv

input = open(urlfile, "r")

output = open(legalfile, "w")

def get_legal(page):

# this is where Legal Authority: starts in the code

start_link = page.find('Legal Authority:')

start_legal = page.find('">', start_link+1)

end_link = page.find('

legal = page[start_legal+2: end_link]

return legal

for line in input:

pg = urlopen(line).read()

statute = get_legal(pg)

output.write(get_legal(pg))在“legalfile”输出.txt中给我所需的法定名称。但是，它不能复制多个法定名称。我试过这样的事情：

def get_legal(page):

# this is where Legal Authority: starts in the code

end_link = ""

legal = ""

start_link = page.find('Legal Authority:')

while (end_link != ' '):

start_legal = page.find('">', start_link+1)

end_link = page.find('

end2 = page.find(' ', end_link+1)

legal += page[start_legal+2: end_link]

if

break

return legal由于每一个章程清单以' '结尾(检查两个链接中的任何一个的来源)，我想我可以使用这个事实(将其作为索引的末尾)循环并收集一个字符串中的所有章程。有任何想法吗？

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。