自然语言处理
liying700
数据开发工程师
展开
-
自然语言处理1---文本预处理(删除非文本,非数字字符)
# -*- encoding:utf-8 -*-import re,HTMLParserimport sysreload(sys)import ossys.setdefaultencoding('utf-8')#输出的内容(爬下来的)是utf-8的形式def file_fill(file_dir): # 得到文本.txt的路径 for root, dirs, files in原创 2017-10-25 16:22:02 · 2115 阅读 · 0 评论 -
自然语言处理2---jieba分词
# -*- encoding:utf-8 -*-import re,HTMLParserimport sysreload(sys)import osimport jiebafrom sklearn.feature_extraction.text import TfidfVectorizer#sys.setdefaultencoding('utf-8')#输出的内容(爬下来的)是utf-原创 2017-10-25 16:23:22 · 300 阅读 · 0 评论 -
自然语言处理3---TFIDF
# -*- coding:utf-8 -*-'''将tfidf写入txt文件'''import stringimport sysimport codecsreload(sys)import osfrom sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer, TfidfTransformerif原创 2017-10-25 16:24:55 · 406 阅读 · 0 评论