python去除html中＜div＞等

最新推荐文章于 2024-07-22 15:15:29 发布

chinxue2008

最新推荐文章于 2024-07-22 15:15:29 发布

阅读量241

点赞数 1

文章标签： python html linux

本文链接：https://blog.csdn.net/weixin_37281967/article/details/139219052

版权

用beautifulsoup并不能将全部的去除得到剩余的txt，特别在兴趣段找关键字的时候。

使用re模块可以实现这个功能。

        for a in a_d:
            em_name = str(a.find('em'))
            pattern = re.compile(r'<[^>]+>', re.S)
            result = pattern.sub('', em_name)
            result = result.strip('\n')
            name_value.append(result)

假设a_d是find_all得到的兴趣模块

循环进入后先使用find找到模块内层兴趣模块，比如

使用pattern来查找其中带有<>的修饰词

用sub剔除这些修饰词得到result

剔除其中的回车符号，可选

最后将这些关键字append到list

该语法的关键是re模块匹配的正则表达式。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

chinxue2008

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python去除html中＜div＞等

用beautifulsoup并不能将全部的去除得到剩余的txt，特别在兴趣段找关键字的时候。循环进入后先使用find找到模块内层兴趣模块，比如使用pattern来查找其中带有<>的修饰词。假设a_d是find_all得到的兴趣模块。该语法的关键是re模块匹配的正则表达式。用sub剔除这些修饰词得到result。最后将这些关键字append到list。使用re模块可以实现这个功能。剔除其中的回车符号，可选。
复制链接

扫一扫