![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
读文件
a602232180
学习算法分类,SVD,LDA,PLSA,KMEANS,word2vec
展开
-
LDA-inference
LDA 主体模型 及inference,并查看迭代过程的困惑度,简单利用KNN预测分类结果原创 2017-06-18 17:02:29 · 1817 阅读 · 1 评论 -
合并txt文件,并使用jieba分词
将目录下,各个类别文件内所有TXT文件分词、去除停用词后集合为一个TXT原创 2017-06-18 16:49:16 · 1446 阅读 · 0 评论 -
python2 读取文件TXT编码问题
读取文件:open("test.txt","r")文件建议另存为UTF-8格式,字打印出来是“u'\u6c49'” “就是unicode编码(python里面报的ASCII);”\xe6\xb1\x89“ 是utf-8 编码,printf 输出就是正常汉字了,若还是打印这个,就需要将LIST里for循环打印utf-8编码的汉字len(),单个字符长度是3;unicode len()原创 2017-11-20 21:52:49 · 3297 阅读 · 0 评论 -
python 读文件,首行出现前缀‘\ufeff‘
python3读文件时,第一行莫名其妙的出现了’\ufeff‘前缀查看原始文件,刚开始根本没有这个,在读文件时,想原来的.stip() 替换为 .encode('utf-8').decode('utf-8-sig').strip()utf-8编码的txt文件时开头会有一个多余的字符\ufeff,在读文件时会读到\ufeff,通过编码encode('utf-8')与解码decode('utf-8-s...原创 2018-07-11 10:38:51 · 2518 阅读 · 0 评论