Python中正则匹配与中文的问题

最新推荐文章于 2024-06-29 17:01:09 发布

sdly_熬夜冠军

最新推荐文章于 2024-06-29 17:01:09 发布

阅读量894

点赞数

分类专栏： Python 文章标签： Python正则匹配中文问题

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35405259/article/details/90205345

版权

Python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

在这里插入图片描述

笔者改写了一个爬虫，来爬取补天SRC的漏洞认领页面，将单位名称、漏洞名称、漏洞危害等级爬取下来，但是在正则匹配"漏洞名称"的过程中遇到了一些麻烦。

如上图，想要把"SQL注入漏洞"字符串正则匹配出来，根据常规思想，正则匹配表达式当然要这么写：

Bug_name = re.findall(‘<span>的一个(.*?)</span>.*?</dd>', r.text)

这种方法是不可行的，为什么呢？？？因为中文"的一个"是不被正则认可的。

于是尝试了各种方法，最后经过调试，使用以下语句进行匹配，成功！

Bug_name = re.findall(u'<span>\u7684\u4e00\u4e2a(.*?)</span>.*?</dd>', r.text)

记录下，以后少走弯路~

sdly_熬夜冠军

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。