水煮洋洋洋-CSDN博客

原创 KNN 以及tensorflow实现

KNN一、KNN算法的概念二、K近邻分类模型的三要素：三、计算步骤四、tensorflow实现一、KNN算法的概念邻近算法，或者说K最近邻(kNN，k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。简单来说，K-NN可以看成：有那么一堆你已经知道分类的数据，然后当一个新数...

2019-08-06 12:28:30 468

原创 sigmoid/逻辑回归要用交叉熵/最大似然的原理

为什么选择交叉熵结论：在使用sigmoid作为激活函数的时候，cross entropy相比于平方损失函数，具有收敛速度快，更容易获得全局最优的特点；使用softmax作为激活函数，log-likelihood作为损失函数，不存在收敛慢的缺点。对于损失函数的收敛特性，我们期望是当误差越大的时候，收敛（学习）速度应该越快。对于一个神经元/逻辑回归，可以表示为：z=wx+v,y=σ(z)z =...

2019-07-22 16:21:52 707

知识图谱（知识表示）--Trans系列基础知识TransE（Translating Embeddings for Modeling Multi-relational Data（2013））TransH（Knowledge Graph Embedding by Translating on Hyperplanes（2014））TransR（Learning Entity and Relation E...

2019-07-12 11:47:26 1571

原创对话系统简介

《文本上的算法》学习笔记1、问答型1.1、基于语义分析的方法1.2、基于信息抽取的方法1.3、端对端的方法2、任务型2.1、生成式模型( Generative Model )2.2、判别式模型( Discrimitive Model )2.3、规则系统3、闲聊型3.1、规则方法3.2、生成模型3.3、检索方法个人认为NLP领域最难的方向可以说是阅读理解与文本生成/摘要，而对话系统，尤其是闲聊常常...

2019-05-07 15:55:00 6548 1

原创文本相似度计算（三）：NLI（待完成）

文本相似度计算NLI 未完待续

2019-05-07 12:01:06 742 1

原创文本相似度计算（二）：hash方法

文本相似度计算BooI模型tf-idf模型(增加词权重特征)BM25 模型(增加了长度特征)Proximity 模型(增加了位置特征)语义特征模型(增加了 Topic特征)句法特征模型(增加了句法特征)深度表示模型(增加语义特征)这一篇都是参考(抄)《文本上的算法》（路彦雄）Hash 方法主要有 minhash 和 simhash。 minhash 的主要目的是降维，它的主要原理是基于这个结论...

2019-05-07 11:57:53 2910

原创文本相似度计算（一）：距离方法

文本相似度距离方法1、文本的表示1.1、VSM表示1.2、词向量表示1.3、迁移方法2、距离计算方法2.1、欧氏距离（L~2~ 范数)、曼哈顿距离（L~1~范数)、明氏距离2.2、汉明距离2.3、Jaccard相似系数、 Jaccard距离( 1-Jaccard相似系数)2.4、余弦距离2.5、皮尔森相关系数2.5、编辑距离场景举例：1）计算 Query 和文档的相关度、2）问答系统中计...

2019-05-06 15:18:46 5690

原创四种常用聚类及代码（四）：DBSCAN

DBSCAN(Density-Based Spatial Clustering of Applications with Noise）1、什么是密度聚类2、一些基本概念3、DBSCAN聚类算法4、DBSCAN参数5、优缺点python实现DBSCAN(Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方...

2019-05-05 18:28:01 2655

原创四种常用聚类及代码（三）：birch（一种层次聚类）

birch1、birch概述2、概念准备2.1、 CF-Tree2.1.1、CF 聚类特征2.1.2、CF的三个统计量2.2、簇间距离3、生成聚类特征树CF Tree4、BIRCH算法4.1 二度聚类4.2 CF树瘦身（可选）4.3 离群点处理优缺点python实现BIRCH，Balanced Iterative Reducing and Clustering Using Hierarchies...

2019-05-05 12:00:40 8368

原创四种常用聚类及代码（二）：谱聚类（spectral clustering）

谱聚类1、谱聚类概述1.1、简单说明2、数学准备2.1、谱2.2、无向权重图2.3、相似矩阵2.3.1、ϵ-neighborhood graph：2.3.2、k-nearest nerghbor graph：2.3.3、fully connected graph:2.4、拉普拉斯矩阵3、切图聚类3.1、切图3.2、三种切图方法3.2.1、最小切（mincut）3.2.2、RatioCut切图3.2...

2019-04-28 17:02:04 6791 1

原创四种常用聚类及代码（一）：K-Means

K-MeansK-MeansK-Means算法K-Means缺点:K-Means优化K-Means实现K-MeansK-Means是最为经典的无监督聚类（Unsupervised Clustering）算法，其主要目的是将n个样本点划分为k个簇，使得相似的样本尽量被分到同一个聚簇。K-Means衡量相似度的计算方法为欧氏距离（Euclid Distance）。K-Means算法的特点是类别的...

2019-04-24 15:12:09 22533 6

原创机器学习与文本中的各种熵

认识各种熵熵信息熵联合熵与条件熵相对熵，互信息，交叉熵文本中的熵熵为什么用log熵假如一个朋友告诉你外面下雨了，你也许觉得不怎么新奇，因为下雨是很平常的一件事情，但是如果他告诉你他见到外星人了，那么你就会觉得很好奇: 真的吗?外星人长什么样?同样两条信息，一条信息量很小，一条信息量很大，很有价值。我们可以用熵来度量生活中的各个信息量。信息熵那么怎么量化上面所说的这个价值呢?这就需要...

2019-04-22 20:51:18 1274