爬虫数据清洗之html标签的清洗

最新推荐文章于 2024-06-10 17:22:02 发布

p_xiaobai

最新推荐文章于 2024-06-10 17:22:02 发布

阅读量5.6k

点赞数 3

分类专栏：爬虫数据清洗文章标签：数据清洗爬虫数据 html标签清洗

本文链接：https://blog.csdn.net/p_xiaobai/article/details/95050852

版权

爬虫数据清洗专栏收录该内容

1 篇文章 0 订阅

订阅专栏

我们平常爬取数据时，会经常有多余的html便签，下面我们就来清洗一下这些标签：

1，只清洗标签，可以用正则，也可以用remove（），remove_tags（）函数

正则清洗：
import re
html='\n 【<a href="http://s.weibo.com/weibo?q=" target="_blank">#13个求职新方向#</a>！有你心动的职业吗<img src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/aa/2018new_bingbujiandan_org.png" title="[并不简单]" alt="[并不简单]" class="face">】近日，人社部、市场监管总局、统计局联合发布13个新职业，既有现在流行的人工智能、大数据、云计算、物联网等工程技术人员，也有电子竞技员、无人机驾驶员等新颖工种…你心动了吗？哪些学校开设了相关专业值得关注？戳图了解↓↓转给正在求学的TA！ 
pre = re.compile('>(.*?)<')
text= ''.join(pre.findall(html))

remove（）用于删除多余的，我们不想要的特定的标签

doc = pq(html)

doc('.article-t style').remove()

如上是：想要class为article里面的内容，但又不想要style标签中的内容，就可以通过以上把style标签删除，然后再提取article下的所有内容。

remove_tags（）删除含有完整的标签：

from w3lib.html import remove_tags

a = 'ai工程师'

print(remove_tags(a))

ai工程师

2，清洗标签和标签包括的内容，用remove_tags_with_content（要清洗的文本，which_ones=(要清洗的标签,)）函数

from w3lib.html import remove_tags_with_content

a = "<span class=\"dp\">OTEzMjEzMTEzNDY=</span>9<span class=\"dp\">OTEzMjEzMTEzNDY=</span>132131134642891XT"
print(remove_tags_with_content(a, which_ones=('span',)))

9132131134642891XT

p_xiaobai

关注

3
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
爬虫数据清洗之html标签的清洗

我们平常爬取数据时，会经常有多余的html便签，下面我们就来清洗一下这些标签：1，只清洗标签，可以用正则，也可以用remove（），remove_tags（）函数正则清洗：import rehtml='\n ...
复制链接

扫一扫

专栏目录