![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据处理
三狸酱
Python后端 机器学习 深度学习
展开
-
Python图形化 Textrank小工具
学习一下tkinter,过程有复用别人的某些代码 ???? 做了个pythonGUI的textrank小工具 可以给一篇文章,txt格式获取词频和textrank降序 地址:textranktool原创 2021-01-15 17:23:39 · 192 阅读 · 0 评论 -
环球新闻数据拆分单篇不易命名,创建索引目录
import os flist = os.listdir('./original') count = 1 index = open('index.txt', 'w', encoding='utf-8') for filename in flist: print(filename) with open('./original/'+filename,'r', encoding='utf-8') as news: while True: .原创 2020-12-24 15:21:13 · 92 阅读 · 0 评论 -
Python正则表达式对社交文本进行清洗
我这里处理场景是推文,其他平台应该需要有所调整 处理表情: import re def filter_emoji(content): try: cont = re.compile(u'['u'\U0001F300-\U0001F64F' u'\U0001F680-\U0001F6FF'u'\u2600-\u2B55]+') except re.error: cont = re.compile(u'('u'\ud83c[\udf00-\udfff]|'u'\u原创 2020-12-23 09:08:43 · 363 阅读 · 1 评论