2016年05月_竹聿Simon

原创 Weka 3.8 无法打开package manager解决方法

原来系统里装有weka 3.7，后来安装Weka 3.8 版本后，发现无法打开package manager，然后发现官网有如下提示： Note for users upgrading from Weka 3.7 to Weka 3.8 or later: if the Weka 3.8 package manager does not start up, please delete the f

2016-05-28 20:28:02 9417

原创 Weka中文乱码解决方法

测试环境64位Win732位Weka3.8不过中文乱码解决方法应该跟上述环境无关。乱码原因weka默认的字符集编码是Cp1252，如果导入的数据中有中文字符，就会显示为乱码。解决方法打开weka安装目录下的RunWeka.ini文件，找到【fileEncoding=】这一行，将Cp1252编码改为需要的字符集编码，比如utf-8，cp936（简体中文），cp950（繁体中文）；**重新打开

2016-05-28 19:32:44 7564

原创【python gensim使用】word2vec词向量处理中文语料

word2vec介绍word2vec官网：https://code.google.com/p/word2vec/word2vec是google的一个开源工具，能够根据输入的词的集合计算出词与词之间的距离。它将term转换成向量形式，可以把对文本内容的处理简化为向量空间中的向量运算，计算出向量空间上的相似度，来表示文本语义上的相似度。word2vec计算的是余弦值，距离范围为0-1之间，值越大代

2016-05-21 20:57:21 75192 28

原创【python gensim使用】word2vec词向量处理英文语料

word2vec介绍word2vec官网：https://code.google.com/p/word2vec/word2vec是google的一个开源工具，能够根据输入的词的集合计算出词与词之间的距离。它将term转换成向量形式，可以把对文本内容的处理简化为向量空间中的向量运算，计算出向量空间上的相似度，来表示文本语义上的相似度。word2vec计算的是余弦值，距离范围为0-1之间，值越大代

2016-05-21 20:36:51 28154 4

原创结巴中文分词使用学习（python）

中文分词工具：结巴分词 github地址：https://github.com/fxsjy/jieba一、分词功能精确模式（默认）：试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细。注意：jieba.cut以及jieba.c

2016-05-21 17:15:12 13307

原创 Markdown语法入门练习

Markdown语法学习Markdown 是一种标记语言，通常为程序员群体所用。它是一个非常简单、非常容易学习的语法。这个语法简单到每个人都可以在5分钟以内学会。Markdown 的好处纯文本，兼容性强，可以用所有文本编辑器打开；Markdown转HTML非常方便；让你专注于文字而不是排版；Markdown 的标记语法有极好的可读性。************ 下面是练习 *********

2016-05-15 14:43:18 1202

原创 GitHub入门学习

1.官方简易教程√ 网址：https://guides.github.com/activities/hello-world/ （1）创建和使用repository （2）开始和管理一个新的branch （3）更改文件并提交（4）打开和合并一个pull request未完待续....

2016-05-10 21:05:18 670

原创 python开发之anaconda【以及win7下安装gensim】

一、推荐安装Anaconda 官方介绍：Anaconda is a completely free Python distribution (including for commercial use and redistribution). It includes more than400 of the most popular Python packages for sci

2016-05-10 17:19:34 14584

竹聿Simon的专栏