自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

盘一哈nlp

梦想是下辈子靠脸吃饭

  • 博客(12)
  • 收藏
  • 关注

原创 KNN 以及tensorflow实现

KNN一、KNN算法的概念二、K近邻分类模型的三要素:三、计算步骤四、tensorflow实现一、KNN算法的概念邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。简单来说,K-NN可以看成:有那么一堆你已经知道分类的数据,然后当一个新数...

2019-08-06 12:28:30 327

原创 sigmoid/逻辑回归要用交叉熵/最大似然的原理

为什么选择交叉熵结论:在使用sigmoid作为激活函数的时候,cross entropy相比于平方损失函数,具有收敛速度快,更容易获得全局最优的特点;使用softmax作为激活函数,log-likelihood作为损失函数,不存在收敛慢的缺点。对于损失函数的收敛特性,我们期望是当误差越大的时候,收敛(学习)速度应该越快。对于一个神经元/逻辑回归,可以表示为:z=wx+v,y=σ(z)z =...

2019-07-22 16:21:52 633

原创 知识表示--trans系列

知识图谱(知识表示)--Trans系列基础知识TransE(Translating Embeddings for Modeling Multi-relational Data(2013))TransH(Knowledge Graph Embedding by Translating on Hyperplanes(2014))TransR(Learning Entity and Relation E...

2019-07-12 11:47:26 1357

原创 对话系统简介

《文本上的算法》学习笔记1、问答型1.1、基于语义分析的方法1.2、基于信息抽取的方法1.3、端对端的方法2、任务型2.1、生成式模型( Generative Model )2.2、判别式模型( Discrimitive Model )2.3、规则系统3、闲聊型3.1、规则方法3.2、生成模型3.3、检索方法个人认为NLP领域最难的方向可以说是阅读理解与文本生成/摘要,而对话系统,尤其是闲聊常常...

2019-05-07 15:55:00 6132 1

原创 文本相似度计算(三):NLI(待完成)

文本相似度计算NLI 未完待续

2019-05-07 12:01:06 661 1

原创 文本相似度计算(二):hash方法

文本相似度计算BooI模型tf-idf模型(增加词权重特征)BM25 模型(增加了长度特征)Proximity 模型(增加了位置特征)语义特征模型(增加了 Topic特征)句法特征模型(增加了句法特征)深度表示模型(增加语义特征)这一篇都是参考(抄)《文本上的算法》(路彦雄)Hash 方法主要有 minhash 和 simhash。 minhash 的主要目的是降维,它的主要原理是基于这个结论...

2019-05-07 11:57:53 2599

原创 文本相似度计算(一):距离方法

文本相似度距离方法1、文本的表示1.1、VSM表示1.2、词向量表示1.3、迁移方法2、距离计算方法2.1、欧氏距离 (L~2~ 范数)、曼哈顿距离 (L~1~范数)、 明氏距离2.2、汉明距离2.3、Jaccard相似系数、 Jaccard距离( 1-Jaccard相似系数)2.4、余弦距离2.5、皮尔森相关系数2.5、编辑距离场景举例:1)计算 Query 和文档的相关度、2)问答系统中计...

2019-05-06 15:18:46 5288

原创 四种常用聚类及代码(四):DBSCAN

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)1、什么是密度聚类2、一些基本概念3、DBSCAN聚类算法4、DBSCAN参数5、优缺点python实现DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方...

2019-05-05 18:28:01 2578

原创 四种常用聚类及代码(三):birch(一种层次聚类)

birch1、birch概述2、概念准备2.1、 CF-Tree2.1.1、CF 聚类特征2.1.2、CF的三个统计量2.2、簇间距离3、生成聚类特征树CF Tree4、BIRCH算法4.1 二度聚类4.2 CF树瘦身(可选)4.3 离群点处理优缺点python实现BIRCH,Balanced Iterative Reducing and Clustering Using Hierarchies...

2019-05-05 12:00:40 7871

原创 四种常用聚类及代码(二):谱聚类(spectral clustering)

谱聚类1、谱聚类概述1.1、简单说明2、数学准备2.1、谱2.2、无向权重图2.3、相似矩阵2.3.1、ϵ-neighborhood graph:2.3.2、k-nearest nerghbor graph:2.3.3、fully connected graph:2.4、拉普拉斯矩阵3、切图聚类3.1、切图3.2、三种切图方法3.2.1、最小切(mincut)3.2.2、RatioCut切图3.2...

2019-04-28 17:02:04 6501 1

原创 四种常用聚类及代码(一):K-Means

K-MeansK-MeansK-Means算法K-Means缺点:K-Means优化K-Means实现K-MeansK-Means是最为经典的无监督聚类(Unsupervised Clustering)算法,其主要目的是将n个样本点划分为k个簇,使得相似的样本尽量被分到同一个聚簇。K-Means衡量相似度的计算方法为欧氏距离(Euclid Distance)。K-Means算法的特点是类别的...

2019-04-24 15:12:09 22116 6

原创 机器学习与文本中的各种熵

认识各种熵熵信息熵联合熵与条件熵相对熵,互信息,交叉熵文本中的熵熵为什么用log熵假如一个朋友告诉你外面下雨了,你也许觉得不怎么新奇,因为下雨是很平常的 一件事情,但是如果他告诉你他见到外星人了,那么你就会觉 得很好奇: 真的吗?外星人长什么样?同样两条信息, 一条信息量很小, 一条信息量很大,很有价值。我们可以用熵来度量生活中的各个信息量。信息熵那么怎么量化上面所说的这个价值呢?这就需要...

2019-04-22 20:51:18 981

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除