2019年02月_五癫

07月 04月 03月 02月

转载【python gensim使用】word2vec词向量处理中文语料

2019-02-21 13:40:03 1539 1

转载 CS224N研究热点2_Linear Algebraic Structure of Word Senses, with Applications to Polysemy（对于一词多义的向量表示研究）

Paper:Linear Algebraic Structure of Word Senses, with Applications to Polysemy源代码词向量编码的相似性相似的单词的词向量编码在欧几里得空间中的分布会彼此相邻：如何表示多义词？比如，tie在游戏比赛的平局；在衣服中的领带；或者表示一种扭曲的动作。实际得到的tie的词向量是tie-1、tie-2、tie-3...

2019-02-21 13:01:06 565

原创一个简单但很难超越的Sentence Embedding基线方法论-笔记

源码地址https://github.com/PrincetonML/SIF1.目的创建句向量2.方法论文地址：第一步，对句子中的每个词向量，乘以一个独特的权值。这个权值是一个常数αα除以αα与该词语频率的和，也就是说高频词的权值会相对下降。求和后得到暂时的句向量。然后计算语料库所有句向量构成的矩阵的第一个主成分uu，让每个句向量减去它在uu上的投影（类似PCA）。...

2019-02-21 12:41:33 886

转载理解GloVe模型（+总结）

系列目录（系列更新中）第二讲 cs224n系列之word2vec & 词向量 word2vec进阶之skim-gram和CBOW模型（Hierarchical Softmax、Negative Sampling）第三讲 cs224n系列之skip-pram优化 & Global Vector by Manning & 词向量评价理解Glo...

2019-02-18 10:29:58 2078

翻译 Skip-Gram直观理解（ Word2Vec Tutorial - The Skip-Gram Model， Word2Vec (Part 1): NLP With Deep Learning翻译）

什么是Word2Vec和Embeddings？ Word2Vec是从大量文本语料中以无监督的方式学习语义知识的一种模型，它被大量地用在自然语言处理（NLP）中。那么它是如何帮助我们做自然语言处理呢？Word2Vec其实就是通过学习文本来用词向量的方式表征词的语义信息，即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。Embedding其实就是一个映射，将单词从原先所属的空间映射到新的...

2019-02-16 10:42:50 948

原创逻辑回归算法步骤

结合西瓜书理解

2019-02-15 11:11:08 2842

原创机器学习中L1正则化和L2正则化有什么区别？

1.正则化的作用机器学习中，如果参数过多，模型过于复杂，容易产生过拟合状态，故正则化的提出是为了一定程度上避免过拟合。比如，常见的L1和L2正则化。2.正则化公式L1：L1正则化是在原来的损失函数基础上加上权重参数的绝对值。L2：L2正则化是在原来的损失函数基础上加上权重参数的平方和。它们的直观解释参照红色石头博客https://blog.csdn.n...

2019-02-15 10:08:49 3478

转载西瓜书-逻辑回归算法的使用

1.任务名称：实验-sklearn-user-guide 1.1.112.使用包：sklearn（里面提供了许多机器学习算法的详细教程和案例，需要多多掌握）3.资料地址：http://sklearn.apachecn.org/#/docs/79逻辑回归逻辑回归（Logistic regression 或logit regression），即逻辑模型（英语：Logit model，也...

2019-02-15 09:15:01 1789

原创西瓜书-3.18，3.19理解过程-对数几率回归

3.22到3.23，3.24的推导过程

2019-02-14 14:15:10 588

原创西瓜书-3.14，3.15理解过程-广义线性模型

假设样本的输出标记符合指数趋势的变化，以对数线性回归为例：（3.14）形式上描述的是对于整体的线性规律对于y而言，描述的是：y=3.15也较好理解注：广义线性模型的参数估计方法有 1.加权最小二乘法 2.极大似然估计 ...

2019-02-14 13:53:49 287

原创西瓜书-3.9，3.10理解过程-线性模型

许多人对3.9公式不理解，其实，min右侧只是用矩阵的形式表示了均方差的概念（大家可以结合矩阵的乘法运算举个例子试试），argmin表示右侧式子最小时w取得的值，我们的目标就是求出这个向量w 需要注意的是：实际问题中，我们的样例数可能很少，而属性维度却很大，即造成了求出多个权重向量维度的情况，都能使得均方误差最小化，此时，如何选择最终结果呢？决定因素：学习算法的归纳偏好做法：...

2019-02-14 11:26:25 1228 2

原创西瓜书-3.5，3.6，3.7，3.8推导过程

1.什么是线性模型碰到不熟悉的概念，我们首先从名字本身着手。线性：顾名思义，表示模型是一个线性组合，模型：可以理解成表示实际问题的一个函数（通过输入，可以得到输出-即结果）于是，线性模型有了以下定义： 2.线性回归已知：,目标：试图通过现有数据构建一个线性模型，使其尽可能准确的预测输出标记。解法：最小二乘法（实质就是试图找到一条直线，使得所有样本...

2019-02-14 10:54:57 1503 1