- 博客(4)
- 资源 (3)
- 收藏
- 关注
原创 用gensim对中文维基百科语料上的word2Vec相似度计算实验
Word2vec 是Google 在 2013 年年中开源的一款将词表征为实数值向量的高效工具, 其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为 K 维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。Word2vec输出的词向量可以被用来做很多 NLP 相关的工作,比如聚类、找同义词、词性分析等等。如果换个思路, 把词当做特征,那么Word2ve
2016-07-31 15:51:52 3901
原创 twitter APi的使用与twitter数据的应用
网络爬虫: 网络爬虫是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在爬取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。 图1 网络爬虫基本原理图 网络爬虫的基本工作流程如下: 1.首先选取一部分精心挑选的种子URL
2016-07-23 13:07:05 19150 4
原创 Twitter使用时API报错Exception in thread "main" Connection refused: connect
错误描述: 错误原因: http://mushiqianmeng.blog.51cto.com/3970029/940343 解决方案: 打开eclipse的windows下面的preferences,选择你自己的相应jre编辑。 在jre编辑界面下面的Default VM arguments里面添加:-Djava.net.preferIPv4Stack=
2016-07-14 10:23:15 954
原创 git同步报错
/libexec/git-core/git-sh-setup: line 86: /bin/sed: Bad file number
2016-07-14 10:01:59 467
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人