解决正则表达式中用中文匹配的方法

最新推荐文章于 2023-06-28 21:09:18 发布

weixin_30478923

最新推荐文章于 2023-06-28 21:09:18 发布

阅读量154

点赞数

文章标签：开发工具

原文链接：http://www.cnblogs.com/flippedkiki/p/5712774.html

版权

例如在网页源代码中有如下中文字段（charset=‘utf-8’）：

发布: 2016-7-27 11:18 | 作者: |
查看: 63次据新华社电全球最大太阳能飞机“阳光动力”2号当地时间26日凌晨在阿联酋首都阿布扎比巴廷商务机场平稳降落，完成全程约3.5万公里的环球飞行，创造了全球不耗费任何燃料、完全依靠太阳能作为动力的飞机环球飞行纪录。

要想去除上段文字中的红色字段，正则表达式如下：

import lxml.etree as etree
selector = etree.HTML(html)
body = selector.xpath('//div[@id="article"]//p/text()')
body = re.sub(u'发布([\w\W]+?)次','',u''.join(body))
print body
#结果如下：据新华社电全球最大太阳能飞机“阳光动力”2号当地时间26日凌晨在阿联酋首都阿布扎比巴廷商务机场平稳降落，完成全程约3.5万公里的环球飞行，创造了全球不耗费任何燃料、完全依靠太阳能作为动力的飞机环球飞行纪录。