- 博客(8)
- 资源 (1)
- 收藏
- 关注
原创 Weka 3.8 无法打开package manager解决方法
原来系统里装有weka 3.7,后来安装Weka 3.8 版本后,发现无法打开package manager,然后发现官网有如下提示: Note for users upgrading from Weka 3.7 to Weka 3.8 or later: if the Weka 3.8 package manager does not start up, please delete the f
2016-05-28 20:28:02 9417
原创 Weka中文乱码解决方法
测试环境64位Win732位Weka3.8不过中文乱码解决方法应该跟上述环境无关。乱码原因weka默认的字符集编码是Cp1252,如果导入的数据中有中文字符,就会显示为乱码。解决方法打开weka安装目录下的RunWeka.ini文件,找到【fileEncoding=】这一行,将Cp1252编码改为需要的字符集编码,比如utf-8,cp936(简体中文),cp950(繁体中文);**重新打开
2016-05-28 19:32:44 7564
原创 【python gensim使用】word2vec词向量处理中文语料
word2vec介绍word2vec官网:https://code.google.com/p/word2vec/word2vec是google的一个开源工具,能够根据输入的词的集合计算出词与词之间的距离。它将term转换成向量形式,可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。word2vec计算的是余弦值,距离范围为0-1之间,值越大代
2016-05-21 20:57:21 75192 28
原创 【python gensim使用】word2vec词向量处理英文语料
word2vec介绍word2vec官网:https://code.google.com/p/word2vec/word2vec是google的一个开源工具,能够根据输入的词的集合计算出词与词之间的距离。它将term转换成向量形式,可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。word2vec计算的是余弦值,距离范围为0-1之间,值越大代
2016-05-21 20:36:51 28154 4
原创 结巴中文分词使用学习(python)
中文分词工具:结巴分词 github地址:https://github.com/fxsjy/jieba一、分词功能精确模式(默认):试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细。注意:jieba.cut以及jieba.c
2016-05-21 17:15:12 13307
原创 Markdown语法入门练习
Markdown语法学习Markdown 是一种标记语言,通常为程序员群体所用。它是一个非常简单、非常容易学习的语法。这个语法简单到每个人都可以在5分钟以内学会。Markdown 的好处纯文本,兼容性强,可以用所有文本编辑器打开;Markdown转HTML非常方便;让你专注于文字而不是排版;Markdown 的标记语法有极好的可读性。************ 下面是练习 *********
2016-05-15 14:43:18 1202
原创 GitHub入门学习
1.官方简易教程√ 网址:https://guides.github.com/activities/hello-world/ (1)创建和使用repository (2)开始和管理一个新的branch (3)更改文件并提交 (4)打开和合并一个pull request未完待续....
2016-05-10 21:05:18 670
原创 python开发之anaconda【以及win7下安装gensim】
一、推荐安装Anaconda 官方介绍:Anaconda is a completely free Python distribution (including for commercial use and redistribution). It includes more than400 of the most popular Python packages for sci
2016-05-10 17:19:34 14584
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人