nlp
sorrythanku
这个作者很懒,什么都没留下…
展开
-
文本基本处理
一.1.1.1正向最大匹配算法从左到右将待分词文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词。但这里有一个问题:要做到最大匹配,并不是第一次匹配到就可以切分的 。我们来举个例子:待分词文本: sentence[]={“计”,“算”,“语”,“言”,“学”,“课”,“程”,“有”,“意”,“思”}词表: dict[]={“计算”, “计算语言学”, “课程”, “有”, “意思”...原创 2019-03-05 20:20:43 · 287 阅读 · 0 评论 -
Transformer到bert
一.Transformer原理中间那层就是transformer模型,他做的处理就是一个变压器,首先将input进行编码,然后解码后发给output,如下图所示这个结构也可以叫做Multi-Head Attention结构。下面详细看一下它的结构query代表了decoder隐层序列,key代表了encoder隐层序列,value代表了encoder隐层的权重序列。那么Q,K,V则分别...原创 2019-03-21 17:22:39 · 2993 阅读 · 0 评论 -
循环神经网络
1.rnn结构其中x为输入层节点,s为隐藏层节点,o为输出层节点,u是输入层到隐藏层的权重,v为s到o的权重。w是上一层隐藏层的输出到下一个影藏层的权重。那么我们可以看看这个图的展开图从这个图可以看出梯度爆炸原因因为神经网络用到的sigmoid的特点,它会将+∞~-∞之间的输入压缩到0~1之间。当input的值更新时,output会有很小的更新。又因为上一层的输出将作为后一层的输入...原创 2019-03-17 21:18:52 · 305 阅读 · 0 评论 -
word2vec(简单快速理解)
一.什么是word2vecword2vec是Google开源的一款用于词向量计算的工具。word2vec不仅可以在百万数量级的词典和上亿的数据集上进行高效地训练,还可以得到训练结果——词向量(word embedding),可以很好地度量词与词之间的相似性。其实word2vec算法的背后是一个浅层神经网络,而且还是一个计算word vector的开源工具。当我们在说word2vec算法或模型的时...原创 2019-03-12 20:56:01 · 980 阅读 · 0 评论 -
神经网络理论
一.基本概念输入层(Input layer),众多神经元(Neuron)接受大量非线形输入消息。输入的消息称为输入向量。输出层(Output layer),消息在神经元链接中传输、分析、权衡,形成输出结果。输出的消息称为输出向量。隐藏层(Hidden layer),简称“隐层”,是输入层和输出层之间众多神经元和链接组成的各个层面。隐层可以有一层或多层。隐层的节点(神经元)数目不定,但数目越多...原创 2019-03-11 21:56:31 · 515 阅读 · 0 评论 -
cnn完成文本分类
1.cnn结构(1)输入层(input layer)图中是一个图形识别的CNN模型。可以看出最左边的船的图像就是我们的输入层,计算机理解为输入若干个矩阵,这点和DNN基本相同。(2)卷积层(Convolution Layer)这个是CNN特有的,卷积层中每一个结点的输入只是上一层神经网络的一小块,这个小块常用大小有3x3和5x5.一般来说,通过卷积层处理过的节点会使得矩阵变的更深。卷积层的...原创 2019-03-15 18:55:53 · 6584 阅读 · 0 评论 -
TF-IDF原理及实现&&互信息的原理和实现
一. TF-IDF原理1.1 为什么要用TF-IDF在将文本分词并向量化后,我们可以得到词汇表中每个词在各个文本中形成的词向量,比如在文本挖掘预处理之向量化与Hash Trick这篇文章中,我们将下面4个短文本做了词频统计:corpus=[“I come to China to travel”,“This is a car polupar in China”,"I love tea an...原创 2019-03-07 19:39:05 · 756 阅读 · 0 评论 -
朴素贝叶斯,SVM文本分类以及LDA生成主题特征
一.朴素贝叶斯原理及文本分类原理:https://blog.csdn.net/c369624808/article/details/78794741代码部分:1.先做一个数据集from numpy import *def loadDataSet(): postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'p...原创 2019-03-09 15:26:44 · 676 阅读 · 0 评论 -
fasttext实现文本分类
一.算法简述FastText是一个快速文本分类算法,在使用标准多核CPU的情况下,在10分钟内可以对超过10亿个单词进行训练,并且在不到一分钟的时间内对312K类中的50万个句子进行分类。 与基于神经网络的文本分类算法相比它主要由两个优点首先FastText在保持高精度的同时极大地加快了训练速度和测试速度。再有就是不需要使用预先训练好的词向量,因为FastText会自己训练词向量 。二.原理...原创 2019-03-13 21:01:08 · 2366 阅读 · 0 评论 -
数据部分及预处理
1.编写脚本文件将每个分类拷贝6500个文件MAXCOUNT=6500for category in $( ls THUCNews); do echo item: $category dir=THUCNews/$category newdir=data/thucnews/$category if [ -d $newdir ]; then rm -rf...原创 2019-03-03 17:05:19 · 462 阅读 · 2 评论 -
attention注意力机制
1.attention干什么的attention模拟的是人脑的注意力模型,举个例子来说,当我们观赏一幅画时,虽然我们可以看到整幅画的全貌,但是在我们深入仔细地观察时,其实眼睛聚焦的就只有很小的一块,这个时候人的大脑主要关注在这一小块图案上,也就是说这个时候人脑对整幅图的关注并不是均衡的,是有一定的权重区分的。这就是深度学习里的Attention Model的核心思想。2.attention原理...原创 2019-03-18 23:18:54 · 1011 阅读 · 0 评论