2019年01月_十三吖

10月 09月 06月 05月 04月 03月 02月 01月

转载《致橡树》-舒婷

我如果爱你——绝不像攀援的凌霄花，借你的高枝炫耀自己：我如果爱你——绝不学痴情的鸟儿，为绿荫重复单调的歌曲；也不止像泉源，常年送来清凉的慰藉；也不止像险峰，增加你的高度，衬托你的威仪。甚至日光。甚至春雨。不，这些都还不够！我必须是你近旁的一株木棉，做为树的形象和你站在一起。根，紧握在地下，叶，相触在云里。每一阵风过，我们都互相致意，但没有人听懂我们的言语。你...

2019-01-18 18:38:13 256

原创 NLP | gensim库 gensim for NLP

目录0 例子1 语料库和向量空间2 主题和转换3 相似性查询4 英语维基百科上的实验5 分布式计算0 Quick Example#import logging#logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)from gensim import...

2019-01-18 09:59:26 678

原创 NLP | Word2Vec之基于Negative Sampling的 CBOW 和 skip-gram 模型

前面介绍了基于Hierarchical Softmax的 skip-gram 和 CBOW 模型，虽然我们使用霍夫曼树代替传统的神经网络，可以提高模型训练的效率。但是如果我们的训练样本里的中心词www是一个很生僻的词，那么就得在霍夫曼树中辛苦的向下走很久了。能不能不用搞这么复杂的一颗霍夫曼树，将模型变的更加简单呢？Negative Sampling就是这么一种求解word2vec模型的方法，它摒...

2019-01-16 09:19:49 950 1

转载 NLP | Word2Vec之Huffman树与Huffman编码

2019-01-15 15:16:43 1012

原创 NLP | Word2Vec之基于Hierarchical Softmax的 skip-gram 和 CBOW 模型

主要介绍Word2Vec中的Skip-Gram模型和CBOW模型。总结来说，skip-gram是用中心词预测周围词，预测的时候是一对word pair，等于对每一个中心词都有K个词作为output，对于一个词的预测有K次，所以能够更有效的从context中学习信息，但是总共预测K*V词。CBOW模型中input是context（周围词），而output是中心词。因此，skip gram的训练时间更...

2019-01-15 10:41:42 1334

原创 NLP | 词袋模型 Bag of words model

词袋模型是用于自然语言处理和信息检索（IR）的简化表示。在这个模型中，一个文本（比如一个句子或文档）表示为它的词袋，不考虑语法，甚至语序，但保持多样性。词袋模型通常用于文档分类方法，其中每个单词的出现（频率）被用作训练分类器的特征。（1） John likes to watch movies. Mary likes movies too.（2） John also likes to wa...

2019-01-11 18:41:11 1209

翻译 Gibbs sampling

Gibbs sampling在统计学中，吉布斯采样或吉布斯采样器是马尔可夫链蒙特卡罗（MCMC）算法。在直接采样困难时，从指定的多变量概率分布近似的获得一个观测序列。该序列可用于近似联合分布（例如，以产生所述分布的直方图）; 近似其中一个变量的边际分布，或变量的某个子集（例如，未知参数或潜在变量）; 或计算积分（例如，一个变量的期望值）。通常，一些变量对应于其值已知的观察，因此不需要进行采样...

2019-01-09 14:31:21 1366

原创中文/英文文本挖掘预处理流程总结

中文与英文文本挖掘的特点第一，中文文本是没有像英文的单词空格那样隔开的，因此不能直接像英文一样可以直接用最简单的空格和标点符号完成分词。所以一般我们需要用分词算法来完成分词，在文本挖掘的分词原理中，我们已经讲到了中文的分词原理，这里就不多说。第二，中文的编码不是utf8，而是unicode。这样会导致在分词的时候，和英文相比，我们要处理编码的问题。1 中文文本挖掘预处理流程1.1 数据收集...

2019-01-07 14:53:26 1812

转载文本挖掘预处理之向量化与Hash Trick

在文本挖掘的分词原理中，我们讲到了文本挖掘的预处理的关键一步：“分词”，而在做了分词后，如果我们是做文本分类聚类，则后面关键的特征预处理步骤有向量化或向量化的特例Hash Trick，本文我们就对向量化和特例Hash Trick预处理方法做一个总结。1. 词袋模型在讲向量化与Hash Trick之前，我们先说说词袋模型(Bag of Words,简称BoW)。词袋模型假设我们不考虑文本中词与词...

2019-01-07 11:19:49 359

原创 SVD分解——>潜在语义分析LSA(I)——>概率性潜在语义分析PLSA(I)

SVD分解正交矩阵：若一个方阵其行与列皆为正交的单位向量，则该矩阵为正交矩阵，且该矩阵的转置和其逆相等。两个向量正交的意思是两个向量的内积为 0。正定矩阵：如果对于所有的非零实系数向量 zzz，都有zTAz&amp;amp;amp;gt;0z^TAz&amp;amp;amp;gt;0zTAz&amp;amp;gt;0，则称矩阵AAA是正定的。正定矩阵的行列式必然大于 0，所有特征值也必然 &amp;amp;gt; 0。相对应的，半正

2019-01-06 20:37:14 3399

原创 LDA模型应用、问题、评估

LDA主题模型及python实现介绍了LDA模型的基本原理与Sklearn实现流程。1 应用聚类：主题是聚类中心，文章和多个类簇（主题）关联。聚类对整理和总结文章集合很有帮助。参看Blei教授和Lafferty教授对于Science杂志的文章生成的总结。点击一个主题，看到该主题下一系列文章。特征生成：LDA可以生成特征供其他机器学习算法使用。LDA为每一篇文章推断一个主题分布；K个主...

2019-01-06 09:45:43 3076 1

原创 LDA主题模型及python实现

LDA(Latent Dirichlet Allocation)中文翻译为：潜在狄利克雷分布。LDA主题模型是一种文档生成模型，是一种非监督机器学习技术。它认为一篇文档是有多个主题的，而每个主题又对应着不同的词。一篇文档的构造过程，首先是以一定的概率选择某个主题，然后再在这个主题下以一定的概率选出某一个词，这样就生成了这篇文档的第一个词。不断重复这个过程，就生成了整篇文章（当然这里假定词与词之间是...

2019-01-05 21:58:36 36941 6

tensorflow-DeepFM-master.zip

DeepFM作为比较新的推荐模型，某些方面优于PNN、FNN、Wide&Deep;模型。该文档包含DeepFM模型python代码。还包括一个实例。

2019-03-22

wide&deep;.zip

wide&deep;相关论文，以及以泰坦尼克号作为实例，进行应用验证。

2019-02-24

LDA主题模型.zip

2019-01-05

精益数据分析1.pdf

本书展示了如何验证自己的设想、找到真正的客户、打造能赚钱的产品，以及提升企业知名度。30多个案例分析，全球100多位知名企业家的真知灼见，为你呈现来之不易、经过实践检验的创业心得和宝贵经验，值得每位创业家和企业家一读。

2018-10-14

集体智慧编程.pdf

本书以机器学习与计算统计为主题背景，专门讲述如何挖掘和分析Web上的数据和资源，如何分析用户体验、市场营销、个人品味等诸多信息，并得出有用的结论，通过复杂的算法来从Web网站获取、收集并分析用户的数据和反馈信息，以便创造新的用户价值和商业价值。

2018-10-14

精益数据分析.pdf

精益数据分析如果需要其他数据分析资料（书籍、代码）请留言

2018-10-09

VS10-MFC编程.docx

比较详细的介绍了MFC的安装，使用，通过例子进行学习，分分钟学会

2018-04-13

受限玻尔兹曼机笔记.pdf

本文包括RBM的所有基础知识。代码可以见hinton的文章玻尔兹曼机（BMS）是一种特殊的对数线性马尔可夫随机场（MRF）的形式，即，其能量函数在其自由参数的线性空间里。使他们强大到足以代表复杂的分布，我们考虑到一些变量是没有观察到（他们称为隐藏）。通过更多的隐藏变量（也称为隐藏的单位），我们可以增加的玻尔兹曼机的建模能力（BM）。受限玻尔兹曼机进一步限制BMS中那些可见-可见和隐藏-隐藏的连接。本文是一个RBM的描述。

2018-04-11

支持向量机.docx

希望哟帮助谢谢加油！

2018-04-02

朴素贝叶斯.docx

希望对大家有帮助。加油。加油！

2018-04-02

k-means数据

k-means数据机器学习加油

2018-03-14

deeplearning学习

deeplearning学习，吴恩达网盘地址

2018-03-14

Logistic regression.rar

针对《机器学习实战》，logistics回归python代码，知识点，疝气病症预测病马死亡率测试集训练集

2018-01-14

python入门笔记（强烈推荐）.pdf

python刚刚开始学习还没入门的，可以试一下这些例题，掌握快速

2017-12-21

datingTestSet2.txt

KNN数据集，约会网站配对效果欢迎下载

2017-12-18

隐形眼镜数据集

决策树数据集