2020年04月_技术宅zch

原创 NLP系列文章（四）——文本的相似性度量

文本相似字面相似编辑距离最长公共子序列和最长公共子串Jaccard（杰卡德）相似度SimHash语义相似欧式距离和余弦相似度词移距离（WMD）DSSM文本相似一般是指的，某一文本doc1doc1doc1与另一文本doc2doc2doc2的相似程度。一般可以从两个方面去考察两个文本之间的相似程度：形似（字面相似）和神似（语义相似）。当然这两种相似性也不能够完全割裂开来，只不过可以认为字面相似的文本...

2020-04-26 14:11:53 3393

原创文本语义相似度衡量方法——词移距离（Word Mover's Distance,WMD）

词移距离什么是词移距离如何解释词汇移动的距离呢为什么采用词移距离衡量文本相似度怎么算词移距离什么是词移距离词移距离（Word Mover’s Distance，WMD）顾名思义就是词汇移动的距离，它的提出本质上是用于衡量任意两个文本之间的语义相似度所提出的。当然从名字就可以了解到，它本身其实就是一个距离，本质上与欧氏距离和曼哈顿距离没有区别。同时，也符合距离越大相似度越低，距离越小相似度越高...

2020-04-24 10:50:42 2636

原创文本向量的距离测度——欧氏距离、曼哈顿距离、余弦相似度

文本的常用距离测度欧氏距离曼哈顿距离曼哈顿距离和欧氏距离的区别余弦相似度余弦相似度和欧氏距离的区别在NLP中文本均会被表示为向量的形式，为了给出任何两个文本之间的相似程度，则可以利用各类的距离进行表示，其中最为著名的两种距离就是欧式距离和宇轩相似度，此外还有曼哈顿距离也被广泛使用。而这三个测度方式均是在欧式空间下进行的。本文以如下的两个向量作为例子进行具体的阐述： vec1=[x1,x2,x...

2020-04-23 16:36:49 3064

原创 Jaccard距离和海明距离

两种向量距离的测度Jaccard（杰卡德）相似度如何度量两个向量之间的Jaccard相似度？特点海明距离Jaccard（杰卡德）相似度Jaccard相似度常用于计算两个文本的字面相似度。将文本分为词的序列。两个文本中一样的词汇集合的个数为A，所有词汇构成的集合为B。最终用A除以B得到的结果就是Jaccard相似度。用一个例子来说明：今天天气很好==>今天/天气/很好今天天气...

2020-04-23 14:49:46 2001

原创面试必考字符串相关的动态规划——最大公共子序列、最大公共子串、编辑距离

字符串相关的动态规划最大公共子序列最大公共子串编辑距离简述这三个算法解决的问题和展示状态转移方程并且给出可通过执行的Python代码。最大公共子序列子序列是，一个字符串中的任意字符组成的序列，重点在于，不要求子序列是原字符串的连续序列。如下例子所示，acg是abcdefg的子序列，但不是连续子序列。 abcdefg ==> acg两个字符串的最大公共子序列的状态转移方程式如下...

2020-04-21 15:07:09 446

原创字面文本相似度算法——SimHash

SimHash什么是字面文本相似度？什么是SimHash？SimHash计算流程什么是字面文本相似度？在NLP领域如何判断两个文本的相似性是一个基础性的任务，而文本的相似性往往可以理解为两个方面：字面相似性和语义相似性。怎么理解这个内容呢？就比如说白龙马和赤兔马，乍一看，”WC，这不就是马么有啥区别？一个是白的一个是红的，也没啥！“，但是究其本质白龙马是龙啊，赤兔马就是一匹普通的坐骑。上面的...

2020-04-20 21:06:04 2227

原创 NLP系列文章（三）——文本向量的表示方法

文本向量的表示方法基于词向量的表示方法有监督文本表示方法基于词向量的表示方法虽然one-hot和TF-IDF的表示方式也成为词向量，但是我们这里讨论的基于词向量的表示方式是围绕分布式词表征进行的。也就是利用Word2Vec、GloVe和fastText等词向量对文本进行表示，词向量可以根据任务或者资源的不同随意选择，文本表示的方法是通用的。首先我们根据语料库训练词向量，也就是针对文本中的每个...

2020-04-20 15:51:13 3281

原创 TensorFlow1.x入门（10）——循环神经网络（RNN）

系列文章1. 计算图的创建与启动2. 变量的定义及其操作3. Feed与Fetch4. 线性回归5. 构建非线性回归模型6. 简单分类问题7. Dropout与优化器8. 手动调整学习率与TensorBoard9. 卷积神经网络（CNN）循环神经网络（RNN）系列文章引言知识点示例引言循环神经网络（Recurrent Neural Network, RNN）是深度神经网络中...

2020-04-19 16:10:19 1393

原创 TensorFlow1.x入门（9）——卷积神经网络（CNN）

系列文章1. 计算图的创建与启动2. 变量的定义及其操作3. Feed与Fetch4. 线性回归5. 构建非线性回归模型6. 简单分类问题7. Dropout与优化器8. 手动调整学习率与TensorBoard卷积神经网络（CNN）系列文章引言知识点示例引言卷积神经网络（Convolutional Neural Networks, CNN）是深度学习领域内的一个重要的组成构建...

2020-04-19 15:18:02 2712 1

原创 TensorFlow1.x入门（8）——手动调整学习率与TensorBoard

系列文章1. 计算图的创建与启动2. 变量的定义及其操作3. Feed与Fetch4. 线性回归5. 构建非线性回归模型6. 简单分类问题7. Dropout与优化器手动调整学习率与TensorBoard系列文章前言知识点示例前言学习率的调整对模型的收敛较为重要，当学习率较大时，模型有可能会产生震荡甚至还会发生Loss跑飞的情况。所以随着迭代的进行，学习率的下降会有利于模型收敛...

2020-04-18 14:08:09 1849 2

原创 TensorFlow1.x入门（7）——Dropout与优化器

系列文章1. 计算图的创建与启动2. 变量的定义及其操作3. Feed与Fetch4. 线性回归5. 构建非线性回归模型6. 简单分类问题Dropout与优化器系列文章引言知识点示例引言dropout技术是经常用于神经网络防止过拟合的方法，具体的原理以及内容之前的博客有讲。here优化器则是深度神经网络在训练过程的核心，通过优化器在迭代数据的过程中不断的更新网络的参数值，使得模...

2020-04-18 11:57:29 2225

原创 NLP系列文章（二）——词袋模型

词袋模型BooleanVectorCountVectorTF-IDFN-gram词袋模型作为NLP领域内比较经典的文本表示思想，有很多不同的表示方法。BooleanVectorBooleanVector是基于布尔值与one-hot的思想而形成的。用一个词表大小的向量来表示文本，文本中出现的词汇在向量中对应的位置将其置为1。比如句子1的表示结果如下：BooleanVector(句子2) = ...

2020-04-17 19:50:35 516

原创 TensorFlow1.x入门（6）——简单分类问题

系列文章1. 计算图的创建与启动2. 变量的定义及其操作3. Feed与Fetch4. 线性回归5. 构建非线性回归模型简单分类问题系列文章前言知识点示例前言深度学习基本上就是处理两大类问题，分类问题与回归问题。系列文章的第4,5篇均是针对回归问题进行介绍，本文则会通过简单的示例，也是经典的tutorial——手写数字识别的demo来介绍分类任务的模型是如何搭建的。知识点mni...

2020-04-15 23:14:58 1818 2

原创 TensorFlow1.x入门（5）——构建非线性回归模型

系列文章1. 计算图的创建与启动2. 变量的定义及其操作3. Feed与Fetch4. 线性回归构建非线性回归模型系列文章知识点示例注意知识点np.linsapce(-0.5, 0.5, 200)生成从-0.5到0.5的均匀分布的200个数据点。包含首尾numpy中花式索引的一个实例——数据升维，即原来是1维的数据列表，经过升维后形成每个数值为1维列表的2为列表。结果类似如下：[...

2020-04-15 19:42:00 1891

原创 NLP系列文章（一）——字词的表示

字词的表示引言离散词表征分布式词表征引言中文自然语言处理的基本单位是字与词，同时可以将字词的表示视为文本表示的基础，广义上的文本表示包含字词的表示，我们这里讨论的文本指的是句子以及篇章的形式。文本中词汇的表示可以分为离散表示和分布式表示。离散词表征文本经过分词工具的处理后会生成词汇的序列，把所有的词汇集中到一起去重后就组成了当前语料库的词表。离散型表示法中最经典的就是独热编码（One-Ho...

2020-04-13 18:24:33 530

原创 TensorFlow1.x入门（4）——线性回归

系列文章1. 计算图的创建与启动2. 变量的定义及其操作3. Feed与Fetch线性回归系列文章知识点示例知识点线性回归：是回归问题，形式如y=k×x+by=k\times x + by=k×x+b。np.random.rand()通过这个函数可以生成一个或者一组从0-1均匀分布的随机样本值。随机样本的取值范围是[0, 1)。tf.square()计算平方，针对一个或者一组数据进...

2020-04-01 00:44:23 2054 2

NLP翟