NLP
谜底666
我迷恋的时光自天空倾倒
展开
-
NLP学习第5讲
Task5 文本表示词袋模型:离散、高维、稀疏。 分布式表示:连续、低维、稠密。word2vec词向量原理并实践,用来表示文本。 word2vec1word2vec word2vec 中的数学原理详解(一)目录和前言 - peghoty - CSDN博客 https://blog.csdn.net/itplus/article/details/37969519 word2vec原...原创 2019-07-02 09:35:48 · 441 阅读 · 0 评论 -
NLP学习第7讲
Task7 卷积神经网络 (2 day)卷积运算的定义、动机(稀疏权重、参数共享、等变表示)。一维卷积运算和二维卷积运算。 池化运算的定义、种类(最大池化、平均池化等)、动机。 Text-CNN的原理。 利用Text-CNN模型来进行文本分类。一、卷积运算1.定义卷积运算通常用星号表示:s(t)=(x∗w)(t) ,在卷积网络的术语中,卷积的第一个参数(函数 x)通常叫做输入(...原创 2019-07-06 09:06:47 · 749 阅读 · 0 评论 -
NLP学习第6讲
Task6 神经网络基础建议第一天基础,第二天FastText前馈神经网络、网络层数、输入层、隐藏层、输出层、隐藏单元、激活函数的概念。 感知机相关;定义简单的几层网络(激活函数sigmoid),递归使用链式法则来实现反向传播。 激活函数的种类以及各自的提出背景、优缺点。(和线性模型对比,线性模型的局限性,去线性化) 深度学习中的正则化(参数范数惩罚:L1正则化、L2正则化;数据集...原创 2019-07-05 10:03:42 · 344 阅读 · 0 评论 -
NLP学习第10讲
Task10 BERTTransformer的原理 BERT的原理 利用预训练的BERT模型将句子转换为句向量,进行文本分类原创 2019-07-13 22:06:55 · 105 阅读 · 0 评论 -
nlp学习第9讲
Task 9 Attention原理基本的Attention原理。 HAN的原理(Hierarchical Attention Networks)。 利用Attention模型进行文本分类自己实在是跟不上,反思了一下前面学过的知识,也没留下什么太深的印象,为数不多的收获就是知道了几个方法是nlp领域的,至于具体是怎么回事就没掌握到了。这种学习方法甚至让我对这个方向产生了厌恶的情绪。计划...原创 2019-07-13 21:49:48 · 397 阅读 · 0 评论 -
NLP学习第4讲
Task4朴素贝叶斯朴素贝叶斯的原理 利用朴素贝叶斯模型进行文本分类 朴素贝叶斯1SVM模型SVM的原理 利用SVM模型进行文本分类LDA主题模型pLSA、共轭先验分布 LDA 使用LDA生成主题特征,在之前特征的基础上加入主题特征进行文本分类 LDA数学八卦lda2合并特征一、朴素贝叶斯1.概念:朴素:朴素贝叶斯算法是假设各个特征之间相互独立,也是朴...原创 2019-06-29 08:27:17 · 664 阅读 · 0 评论 -
NLP学习第1讲
Task1 数据集探索1. 数据集数据集:中、英文数据集各一份 中文数据集:THUCNews THUCNews数据子集:https://pan.baidu.com/s/1hugrfRu 密码:qfud英文数据集:IMDB数据集 Sentiment Analysis2. IMDB数据集下载和探索参考TensorFlow官方教程:影评文本分类 | TensorFl...原创 2019-06-21 09:02:13 · 541 阅读 · 0 评论 -
NLP学习第0讲
1.tensorflow安装推荐Anaconda(针对自己操作系统和位数下载对应版本);推荐用conda create创建对应的python环境(注:某些python版本可能不支持tensorflow);通过pip install来安装tensorflow。参考: tensorflow安装教程http://www.tensorflownews.com/series/tensorflow-t...原创 2019-06-21 11:00:00 · 141 阅读 · 0 评论 -
NLP学习第2讲
Task2 特征提取 (2 days)1. 分词 1.1 分词概念 1.2 词、字符频率统计2. unigram、bigram、trigram 2.1 语言模型中unigram、bigram、trigram的概念 2.2 unigram、bigram频率统计;(可以使用Python中的collections.Counter模块,也可以自己寻找其他好用的库...原创 2019-06-23 11:30:25 · 796 阅读 · 0 评论 -
NLP学习第3讲
Task3 特征选择 (2 days)1. TF-IDF原理。2. 文本矩阵化,使用词袋模型,以TF-IDF特征值为权重。(可以使用Python中TfidfTransformer库)3. 互信息的原理。4. 使用第二步生成的特征矩阵,利用互信息进行特征筛选。参考[文本挖掘预处理之TF-IDF:文本挖掘预处理之TF-IDF - 刘建平Pinard - 博客园]https://...原创 2019-06-27 10:42:50 · 285 阅读 · 0 评论 -
NLP学习第8讲
Task8 循环和递归神经网络RNN的结构。循环神经网络的提出背景、优缺点。着重学习RNN的反向传播、RNN出现的问题(梯度问题、长期依赖问题)、BPTT算法。 双向RNN 递归神经网络 LSTM、GRU的结构、提出背景、优缺点。 针对梯度消失(LSTM等其他门控RNN)、梯度爆炸(梯度截断)的解决方案。 Memory Network(自选) Text-RNN的原理。 利用Te...原创 2019-07-07 10:39:32 · 272 阅读 · 0 评论