数据处理
三狸酱
Python后端 机器学习 深度学习
展开
-
Python图形化 Textrank小工具
学习一下tkinter,过程有复用别人的某些代码 ????做了个pythonGUI的textrank小工具可以给一篇文章,txt格式获取词频和textrank降序地址:textranktool原创 2021-01-15 17:23:39 · 183 阅读 · 0 评论 -
环球新闻数据拆分单篇不易命名,创建索引目录
import osflist = os.listdir('./original')count = 1index = open('index.txt', 'w', encoding='utf-8')for filename in flist: print(filename) with open('./original/'+filename,'r', encoding='utf-8') as news: while True: .原创 2020-12-24 15:21:13 · 84 阅读 · 0 评论 -
Python正则表达式对社交文本进行清洗
我这里处理场景是推文,其他平台应该需要有所调整处理表情:import redef filter_emoji(content): try: cont = re.compile(u'['u'\U0001F300-\U0001F64F' u'\U0001F680-\U0001F6FF'u'\u2600-\u2B55]+') except re.error: cont = re.compile(u'('u'\ud83c[\udf00-\udfff]|'u'\u原创 2020-12-23 09:08:43 · 342 阅读 · 1 评论