我的python学习
正则表达式匹配中文及匹配目标中文的首部
如题 直接进入正题,在一个小项目上遇到需要用正则表达式匹配一段文字如下
中标人 xxxx公司
中标人 xxx1公司
如何用正则表达式把大量的这样的公司爬取下来,代码如下
import re #这是肯定的
content = '中标人 xxxx公司'
pattern = re.complie('中标人\s(.*?)([\u4E00-\u9FA5])+')
result = re.search(pattern, content)
>>>中标人 xxxx公司
可以找到一个页面中的一个匹配字段 如果有很多这个字段考虑findall
.*?是对这堆中文和之后的字段匹配,([\u4E00-\u9FA5])表达是要找的是中文。