得到一个txt文本,如何提取其中全部的url,为后续工作做准备。
-
读取txt文本
df = open('link.txt') data = df.read() patten = re.compile('a.*?b') # 以a开头,以b结尾 urls = patten.findall(data)
-
正则表达式匹配全部中文
patten = re.compile("[\u4e00-\u9fa5]") # 匹配全部中文 chi_list = patten.findall(data) # 返回全部中文构成的列表
-
将返回中文结合成文本
text = ''.join(chi_list)
-
匹配YYYY-MM-DD格式日期
patten_1 = re.compile('(\d{4}-\d{1,2}-\d{1,2})') date = patten_1.findall(date_file)[0]