![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
水煮洋洋洋
这个作者很懒,什么都没留下…
展开
-
机器学习与文本中的各种熵
认识各种熵熵信息熵联合熵与条件熵相对熵,互信息,交叉熵文本中的熵熵为什么用log熵假如一个朋友告诉你外面下雨了,你也许觉得不怎么新奇,因为下雨是很平常的 一件事情,但是如果他告诉你他见到外星人了,那么你就会觉 得很好奇: 真的吗?外星人长什么样?同样两条信息, 一条信息量很小, 一条信息量很大,很有价值。我们可以用熵来度量生活中的各个信息量。信息熵那么怎么量化上面所说的这个价值呢?这就需要...原创 2019-04-22 20:51:18 · 981 阅读 · 0 评论 -
四种常用聚类及代码(二):谱聚类(spectral clustering)
谱聚类1、谱聚类概述1.1、简单说明2、数学准备2.1、谱2.2、无向权重图2.3、相似矩阵2.3.1、ϵ-neighborhood graph:2.3.2、k-nearest nerghbor graph:2.3.3、fully connected graph:2.4、拉普拉斯矩阵3、切图聚类3.1、切图3.2、三种切图方法3.2.1、最小切(mincut)3.2.2、RatioCut切图3.2...原创 2019-04-28 17:02:04 · 6494 阅读 · 1 评论 -
四种常用聚类及代码(一):K-Means
K-MeansK-MeansK-Means算法K-Means缺点:K-Means优化K-Means实现K-MeansK-Means是最为经典的无监督聚类(Unsupervised Clustering)算法,其主要目的是将n个样本点划分为k个簇,使得相似的样本尽量被分到同一个聚簇。K-Means衡量相似度的计算方法为欧氏距离(Euclid Distance)。K-Means算法的特点是类别的...原创 2019-04-24 15:12:09 · 22115 阅读 · 6 评论 -
四种常用聚类及代码(三):birch(一种层次聚类)
birch1、birch概述2、概念准备2.1、 CF-Tree2.1.1、CF 聚类特征2.1.2、CF的三个统计量2.2、簇间距离3、生成聚类特征树CF Tree4、BIRCH算法4.1 二度聚类4.2 CF树瘦身(可选)4.3 离群点处理优缺点python实现BIRCH,Balanced Iterative Reducing and Clustering Using Hierarchies...原创 2019-05-05 12:00:40 · 7868 阅读 · 0 评论 -
四种常用聚类及代码(四):DBSCAN
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)1、什么是密度聚类2、一些基本概念3、DBSCAN聚类算法4、DBSCAN参数5、优缺点python实现DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方...原创 2019-05-05 18:28:01 · 2578 阅读 · 0 评论 -
文本相似度计算(一):距离方法
文本相似度距离方法1、文本的表示1.1、VSM表示1.2、词向量表示1.3、迁移方法2、距离计算方法2.1、欧氏距离 (L~2~ 范数)、曼哈顿距离 (L~1~范数)、 明氏距离2.2、汉明距离2.3、Jaccard相似系数、 Jaccard距离( 1-Jaccard相似系数)2.4、余弦距离2.5、皮尔森相关系数2.5、编辑距离场景举例:1)计算 Query 和文档的相关度、2)问答系统中计...原创 2019-05-06 15:18:46 · 5285 阅读 · 0 评论 -
文本相似度计算(二):hash方法
文本相似度计算BooI模型tf-idf模型(增加词权重特征)BM25 模型(增加了长度特征)Proximity 模型(增加了位置特征)语义特征模型(增加了 Topic特征)句法特征模型(增加了句法特征)深度表示模型(增加语义特征)这一篇都是参考(抄)《文本上的算法》(路彦雄)Hash 方法主要有 minhash 和 simhash。 minhash 的主要目的是降维,它的主要原理是基于这个结论...原创 2019-05-07 11:57:53 · 2596 阅读 · 0 评论 -
sigmoid/逻辑回归要用交叉熵/最大似然的原理
为什么选择交叉熵结论:在使用sigmoid作为激活函数的时候,cross entropy相比于平方损失函数,具有收敛速度快,更容易获得全局最优的特点;使用softmax作为激活函数,log-likelihood作为损失函数,不存在收敛慢的缺点。对于损失函数的收敛特性,我们期望是当误差越大的时候,收敛(学习)速度应该越快。对于一个神经元/逻辑回归,可以表示为:z=wx+v,y=σ(z)z =...原创 2019-07-22 16:21:52 · 630 阅读 · 0 评论 -
KNN 以及tensorflow实现
KNN一、KNN算法的概念二、K近邻分类模型的三要素:三、计算步骤四、tensorflow实现一、KNN算法的概念邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。简单来说,K-NN可以看成:有那么一堆你已经知道分类的数据,然后当一个新数...原创 2019-08-06 12:28:30 · 327 阅读 · 0 评论