- 博客(4)
- 收藏
- 关注
原创 gensim
训练预料的预处理训练语料的预处理指的是将文档中原始的字符文本转换成Gensim模型所能理解的稀疏向量的过程。通常,我们要处理的原生语料是一堆文档的集合,每一篇文档又是一些原生字符的集合。在交给Gensim的模型训练之前,我们需要将这些原生字符解析成Gensim能处理的稀疏向量的格式。我们需要先对原始的文本进行分词、去除停用词等操作,得到每一篇文档的特征列表。content_clean就是若干个被拆
2018-01-19 15:27:56 642
原创 Groupby
分组如果想按照key1进行分组,并计算data1的平均值。实现该功能的方式有很多,而我们这里要用的是:访问data1,并根据key1调用groupby一次传入多个数组
2018-01-18 20:43:35 282
原创 jieba分词器
分词jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接
2018-01-18 09:29:08 697
原创 warning, language png not recognized, use one of: dot canon plain plain-ext解决方法
在决策树可视化过程出现的问题 1、找到dot.exe的路径,我的是 D:\Programe Files\graphviz\bin 2、我的.dot和.png文件存储位置C:\Users\***\Documents\jiqixuexi\jueceshu 3、指定路径:打开Windows命令行 4、重新进入运行就可以了。
2018-01-12 16:42:47 3264 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人