2016年07月_multiangle

原创对希拉里泄露邮件进行简单分析的结果

这次爆出的邮件门十分劲爆啊，不过看了看邮件内容，如果进行NLP处理的话太过繁杂，所以选择了对收发邮箱间的关系进行简单分析。原文发在知乎上，这里就直接搬过来了。分析的代码放在github上1.首先来看收发邮件数在6000封邮件中，涉及了600个左右的邮箱单看发送邮件的数目，前五强邮箱分别是[email protected]: 645封 MirandaL@dnc.

2016-07-28 11:00:09 5233 5

转载 word2vec 中的数学原理详解-基于 Negative Sampling 的模型

转自:http://blog.csdn.net/itplus/article/details/37998797我之前写的是基于Hierarchical Softmax的模型。而在word2vec中，还有一种基于Negative Sampling的模型。我虽然没写，但是觉得这种方法还是蛮有用的，所以把别人写的资料贴上来，便于复习

2016-07-20 17:35:02 7932

原创自己动手写word2vec (四):CBOW和skip-gram模型

CBOW和skip-gram应该可以说算是word2vec的核心概念之一了。这一节我们就来仔细的阐述这两个模型。其实这两个模型有很多的相通之处，所以这里就以阐述CBOW模型为主，然后再阐述skip-gram与CBOW的不同之处。这一部分的代码放在pyword2vec.py文件中1.CBOW模型之前已经解释过，无论是CBOW模型还是skip-gram模型，都是以Huffman树作为基础的。而Huffm

2016-07-18 16:54:20 83005 23

原创自己动手写word2vec (三):构建Huffman树

这一部分将解释Huffman树的构造方法，并说明了如何根据Huffman树来产生对应的二进制编码。这部分的代码放在HuffmanTree.py中Huffman树的构造Huffman树的构造方法与Huffman编码密切相关。具体的做法可以用下列伪码来描述while (单词列表长度>1) { 从单词列表中挑选出出现频率最小的两个单词 ; 创建一个新的中间节点，其左右节点分别是之前的两

2016-07-16 17:38:10 20760 6

原创自己动手写word2vec (二):统计词频

在我之前写的word2vec的大概流程中，第一步的分词使用jieba来实现，感觉效果还不错。第二步. 统计词频统计词频，相对来讲比较简单一些，主要在Python自带的Counter类基础上稍作改进。值得注意的是需要去掉停用词。所谓停用词，就是出现频率太高的词，如逗号，句号等等，以至于没有区分度。停用词可以在网上很轻易找到，我事先已经转化成二进制的格式存储下来了。这一部分的代码放在WordCount.

2016-07-14 10:55:24 20316

原创自己动手写word2vec (一):主要概念和流程

word2vec 是 Google 于 2013 年开源推出的一个用于获取词向量（word vector）的工具包，它简单、高效，因此引起了很多人的关注。我在看了@peghoty所写的《word2vec中的数学以后》（个人觉得这是很好的资料，各方面知识很全面，不像网上大部分有残缺），为了加深理解，自己用Python实现了一遍。贴在我的github上系列所有帖子自己动手写word2vec (一):

2016-07-11 22:35:14 61167 27

Multiangle's Notepad

原创对希拉里泄露邮件进行简单分析的结果

转载 word2vec 中的数学原理详解-基于 Negative Sampling 的模型

原创自己动手写word2vec (四):CBOW和skip-gram模型

原创自己动手写word2vec (三):构建Huffman树

原创自己动手写word2vec (二):统计词频

原创自己动手写word2vec (一):主要概念和流程

空空如也

空空如也

原创 对希拉里泄露邮件进行简单分析的结果

转载 word2vec 中的数学原理详解-基于 Negative Sampling 的模型

原创 自己动手写word2vec (四):CBOW和skip-gram模型

原创 自己动手写word2vec (三):构建Huffman树

原创 自己动手写word2vec (二):统计词频

原创 自己动手写word2vec (一):主要概念和流程

空空如也

空空如也

原创对希拉里泄露邮件进行简单分析的结果

原创自己动手写word2vec (四):CBOW和skip-gram模型

原创自己动手写word2vec (三):构建Huffman树

原创自己动手写word2vec (二):统计词频

原创自己动手写word2vec (一):主要概念和流程