python提取重复元素_在BeautifulSoup中提取HTML表，获取重复元素

最新推荐文章于 2023-07-17 16:43:28 发布

weixin_39990138

最新推荐文章于 2023-07-17 16:43:28 发布

阅读量470

点赞数

文章标签： python提取重复元素

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39990138/article/details/113513415

版权

在尝试网页抓取时，遇到一个问题：代码在处理HTML表格时会捕获重复元素并忽略其他元素。使用BeautifulSoup解析器，从特定行开始遍历表格单元格，发现结果中存在重复的表格数据。同时，对于Unicode格式化的文本感到满意。问题包括如何隔离表格混乱内容、缺失元素的原因以及如何处理重复元素。

摘要由CSDN通过智能技术生成

第二次尝试网页抓取，却遇到了一个奇怪的错误。在

我要得到的最终结果是废弃表并将每一行放入一个SQL表中，但是这有90年代风格的嵌套表，没有分区，也没有类。我读过关于使用结构的书，但我不知道怎么做。我一直很好奇我是否可以从某一行开始作为“结构”，但这也有局限性。在

当前的挑战是，这段代码在移到下一行之前会拾取重复的元素并忽略其他元素。在import bs4

import urllib

from urllib.request import urlopen as uReq

from bs4 import BeautifulSoup as soup

my_url = 'http://www.texasregionalradio.com/top100.asp'

uClient = uReq(my_url)

page_html = uClient.read()

uClient.close()

page_soup = soup(page_html, "html.parser")

table_soup = page_soup

# Limit the amount of HTML grabbed by Soup

#table_soup = page_soup.findAll("table", {"class":"sample"})

# Trying to grab cells from each row. Randomly chose [8:10] but I don't know what they are selecting or why.

for row in table_soup.findAll("tr")[8:10]:

for cell in row.findAll("td"):

print(cell.text)

结果：

^{pr2}$

另外，我刚刚了解到，文本可以格式化unicode，这样我就不会得到奇怪的字符串，我对此非常满意，而且没有人可以与关心它的人分享。所以，那就是你。谢谢你的帮助。：)

问题1：如何才能最好地将桌子与这些乱七八糟的东西隔离开来？

问题2：为什么缺少元素？

问题3：什么是重复的元素？在

编辑：

将解析器切换到“html5lib”可以改善一些结果：12

2

1

PUT MY MONEY ON THAT / Independent (1) Weeks at #1

Curtis Grimes

PUT MY MONEY ON THAT / Independent (1) Weeks at #1

Curtis Grimes

2192

1967

+225

88%

1

PUT MY MONEY ON THAT / Independent (1) Weeks at #1

Curtis Grimes

weixin_39990138

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python提取重复元素_在BeautifulSoup中提取HTML表，获取重复元素

第二次尝试网页抓取，却遇到了一个奇怪的错误。在我要得到的最终结果是废弃表并将每一行放入一个SQL表中，但是这有90年代风格的嵌套表，没有分区，也没有类。我读过关于使用结构的书，但我不知道怎么做。我一直很好奇我是否可以从某一行开始作为“结构”，但这也有局限性。在当前的挑战是，这段代码在移到下一行之前会拾取重复的元素并忽略其他元素。在import bs4import urllibfrom urllib...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。