正则表达式的中文搜索

在进行爬虫研究时,作者发现需要从抓取的文本中提取中文内容。通过查询,了解到中文的UTF-8编码范围是u4e00-u9fa5。在尝试使用正则表达式"[u4e00-u9fa5]+"匹配时,遇到问题,最初得到的结果不正确。经过排查,最终发现需要将正则表达式改为u""[u4e00-u9fa5]+""并处理字符串的编码方式,成功实现了中文的匹配和提取。
摘要由CSDN通过智能技术生成

这几天在研究爬虫,想在抓回来的文本中找出中文来,就捎带着研究了一下正则。没想到一如侯门深似海。

关于正则,有个很出名的笑话:有个程序员遇到了问题,他决定要用正则表达式去解决。现在他有了两个问题。(实用正则的时候肯定会有问题,而原来的问题依然还在)

还有这样一个笑话:给一个程序员正则表达式,他会拿着去匹配出字符;教给他如何实用正则表达式,你会得到一个浑身是问题的人。

(原谅我这生硬的翻译。)

通过so.com查询关键字,会得到一个utf-8 编码的字符串,当查询科技的时候:

 suggest_so({"query":"科技","result":[{"word":"科技美学"},{"word":"科技苑"},{"word":"科技小制作大全"},{"word":"科技管理研究"},{"word":"科技网"},{"word":"科技少女喵","obdata":"{\"t\":\"video\"}"},{"word":"科技部"},{"word":"科技日报"},{"word":"科技超能王","obdata":"{\"mt\":\"novel_free\",\"md\":[\"http:\/\/p3.qhimg.com\/dr\/80_100_100\/t0155de86b15e45143c.jpg\",\"\u79d1\u6280\u8d85
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值