- 博客(3)
- 收藏
- 关注
原创 自然语言处理3---TFIDF
# -*- coding:utf-8 -*-'''将tfidf写入txt文件'''import stringimport sysimport codecsreload(sys)import osfrom sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer, TfidfTransformerif
2017-10-25 16:24:55 412
原创 自然语言处理2---jieba分词
# -*- encoding:utf-8 -*-import re,HTMLParserimport sysreload(sys)import osimport jiebafrom sklearn.feature_extraction.text import TfidfVectorizer#sys.setdefaultencoding('utf-8')#输出的内容(爬下来的)是utf-
2017-10-25 16:23:22 309
原创 自然语言处理1---文本预处理(删除非文本,非数字字符)
# -*- encoding:utf-8 -*-import re,HTMLParserimport sysreload(sys)import ossys.setdefaultencoding('utf-8')#输出的内容(爬下来的)是utf-8的形式def file_fill(file_dir): # 得到文本.txt的路径 for root, dirs, files in
2017-10-25 16:22:02 2129
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人