- 博客(6)
- 收藏
- 关注
原创 对希拉里泄露邮件进行简单分析的结果
这次爆出的邮件门十分劲爆啊,不过看了看邮件内容,如果进行NLP处理的话太过繁杂,所以选择了对收发邮箱间的关系进行简单分析。原文发在知乎上,这里就直接搬过来了。分析的代码放在github上1.首先来看收发邮件数在6000封邮件中,涉及了600个左右的邮箱 单看发送邮件的数目,前五强邮箱分别是kaplanj@dnc.org: 645封 MirandaL@dnc.
2016-07-28 11:00:09 5193 5
转载 word2vec 中的数学原理详解-基于 Negative Sampling 的模型
转自:http://blog.csdn.net/itplus/article/details/37998797我之前写的是基于Hierarchical Softmax的模型。而在word2vec中,还有一种基于Negative Sampling的模型。我虽然没写,但是觉得这种方法还是蛮有用的,所以把别人写的资料贴上来,便于复习
2016-07-20 17:35:02 7918
原创 自己动手写word2vec (四):CBOW和skip-gram模型
CBOW和skip-gram应该可以说算是word2vec的核心概念之一了。这一节我们就来仔细的阐述这两个模型。其实这两个模型有很多的相通之处,所以这里就以阐述CBOW模型为主,然后再阐述skip-gram与CBOW的不同之处。这一部分的代码放在pyword2vec.py文件中1.CBOW模型之前已经解释过,无论是CBOW模型还是skip-gram模型,都是以Huffman树作为基础的。而Huffm
2016-07-18 16:54:20 82937 23
原创 自己动手写word2vec (三):构建Huffman树
这一部分将解释Huffman树的构造方法,并说明了如何根据Huffman树来产生对应的二进制编码。这部分的代码放在HuffmanTree.py中Huffman树的构造Huffman树的构造方法与Huffman编码密切相关。 具体的做法可以用下列伪码来描述while (单词列表长度>1) { 从单词列表中挑选出出现频率最小的两个单词 ; 创建一个新的中间节点,其左右节点分别是之前的两
2016-07-16 17:38:10 20733 6
原创 自己动手写word2vec (二):统计词频
在我之前写的word2vec的大概流程中,第一步的分词使用jieba来实现,感觉效果还不错。第二步. 统计词频统计词频,相对来讲比较简单一些,主要在Python自带的Counter类基础上稍作改进。值得注意的是需要去掉停用词。所谓停用词,就是出现频率太高的词,如逗号,句号等等,以至于没有区分度。停用词可以在网上很轻易找到,我事先已经转化成二进制的格式存储下来了。这一部分的代码放在WordCount.
2016-07-14 10:55:24 20279
原创 自己动手写word2vec (一):主要概念和流程
word2vec 是 Google 于 2013 年开源推出的一个用于获取词向量(word vector)的工具包,它简单、高效,因此引起了很多人的关注。我在看了@peghoty所写的《word2vec中的数学以后》(个人觉得这是很好的资料,各方面知识很全面,不像网上大部分有残缺),为了加深理解,自己用Python实现了一遍。贴在我的github上系列所有帖子 自己动手写word2vec (一):
2016-07-11 22:35:14 61109 27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人