html去掉抓取的字符串,爬虫清洗去除html的tags

最新推荐文章于 2021-08-09 21:48:53 发布

全自動資本主義

最新推荐文章于 2021-08-09 21:48:53 发布

阅读量456

点赞数

文章标签： html去掉抓取的字符串

本文介绍了如何使用w3lib库中的remove_tags函数来去除HTML字符串中的标签，以及w3lib提供的其他字符串清洗功能，如替换标签、实体字符等。同时，分享了两个实用的函数，分别用于从字符串中提取headers字典和cookies字典。

摘要由CSDN通过智能技术生成

在抓取一些数据的时候，获取到的字符串是这样的：

文章标题2432
文章内容

这种情况如果写正则匹配的话，太浪费时间了。有一个现成的工具可用

那就是w3lib。w3lib 是scrapy的基础插件,用来处理html，相当好用，以下是例子：

from w3lib.html import remove_tags

s = '文章标题2432
文章内容
'

s1 = remove_tags(s)

print(s1)

>>>文章标题2432文章内容

是不是很赞？另外，w3lib还提供了多种高度自由的方法来进行字符串清洗：

doc = '

This is a link: example

1.指定保留需要的标签:

>>> w3lib.html.remove_tags(doc, keep=('div',))

This is a link: example

2. 指定选择去除的标签:

>>> w3lib.html.remove_tags(doc, which_ones=('a','b'))

This is a link: example

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注