文本分析
请工作善待我
这个作者很懒,什么都没留下…
展开
-
【转】将文中标点替换成空格(收藏留用)
import reimport oslist=[',','?','.','?','!','*','(',')','“','”',':','"','`','\''] ##要替换的标点符号做成一个列表with open(r"out1无空行.txt",'r',encoding="utf-8") as f: ##text.txt是用来训练的文本 result = f.read() for i in range(len(lis.原创 2021-07-15 14:10:16 · 1172 阅读 · 0 评论 -
中文文本实现分词+去停用词(PYTHON)
import jieba# 创建停用词列表def stopwordslist(): stopwords = [line.strip() for line in open(r'stopwords.txt',encoding='UTF-8').readlines()] return stopwords#扩展jieba分词词库dict='fencibuchong.txt'jieba.load_userdict(dict)# 对句子进行中文分词def seg_depart(s..原创 2021-07-12 10:31:33 · 6257 阅读 · 7 评论