![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
紫砂痕
这个作者很懒,什么都没留下…
展开
-
《Deep contextualized word representations》论文阅读
1.1、 论文动机?2、 ELMo 相对于 word2vec 、 glove 的优点?3、 ELMo 采用的模型?4、 ELMo 属于 Feature-based or fine-turning?5、 ELMo 如何进行特征拼接?6、 ELMo 解决了什么问题?7、 用一句话介绍 ELMo?8、 ELMo 模型怎么应用到下游任务?9、 ELMo 存在问题?10、如何评价 EL...原创 2019-06-22 17:12:35 · 316 阅读 · 0 评论 -
Transformer 与BERT模型
Transformer 与BERT模型1. Transformer1.1 序列到序列任务与Encoder-Decoder框架1.2 Transformer2. BERT1. Transformer1.1 序列到序列任务与Encoder-Decoder框架序列到序列(Sequence-to-Sequence)是自然语言处理中的一个常见任务,主要用来做泛文本生成的任务,像机器翻译、文本摘要、歌词...原创 2019-03-22 22:33:37 · 1607 阅读 · 0 评论 -
win10+python3.6下安装fastText+fastText原理和使用
fastText的安装1. 安装fastText1.1 报错:解决方法2.参考链接1. 安装fastText运行环境: win10+Python 3.6+64位1.1 报错:直接运行 pip install fastText, 会报以下错误:“Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++ ...原创 2019-03-13 13:54:50 · 5196 阅读 · 1 评论 -
卷积神经网络+TextCNN文本分类
卷积知识5.6 textCNN:5.6 textCNN:TextCNN的详细过程原理图见下:TextCNN详细过程:第一层是图中最左边的7乘5的句子矩阵,每行是词向量,维度=5,这个可以类比为图像中的原始像素点了。然后经过有 filter_size=(2,3,4) 的一维卷积层,每个filter_size 有两个输出 channel。第三层是一个1-max pooling层,这样不同长度句子...原创 2019-03-15 17:40:02 · 7220 阅读 · 0 评论 -
Attention 与Hierarchical Attention Networks 原理
Attention 与Hierarchical Attention Networks1. Attention 注意力机制1.1 什么是Attention?1.2 加入Attention的动机1.3 Attention 原理1.3.1 Encoder-Decoder框架1.3.2 Attention模型1.3.2.1 Soft Attention模型参考链接2. Hierarchical Atte...原创 2019-03-19 20:17:46 · 2748 阅读 · 2 评论 -
特征选择---理论篇
特征选择1. 过滤(Filter)1.1 点互信息PMI2. 包裹(Warpper)3. 嵌入法(Embedding)一个典型的机器学习任务,是通过样本的特征来预测样本所对应的值。如果样本的特征少了,我们会考虑增加特征,比如Polynomial Regression就是典型的增加特征的算法。但是模型特征越多,模型的复杂度也就越高,越容易导致过拟合。而现实中的情况,往往是特征太多了,需要减少一些“...原创 2019-03-07 21:20:25 · 460 阅读 · 0 评论 -
文本处理:pLSA 与LDA主题模型
文本处理:LDA主题模型前言1. pLSA2. LDA2.1 LDA生成过程参考链接:前言在机器学习领域,关于LDA有两种含义,(1) 线性判别分析(Linear Discriminant Analysis),是一种经典的降维学习方法;(2) 隐含狄利克雷分布(Latent Dirichlet Allocation),是一种概率主题模型,主要用来文本分类,在NLP领域有重要应用。在本文要介绍的...原创 2019-03-09 21:52:38 · 547 阅读 · 0 评论 -
达观杯:NLP文本分类问题
达观杯:NLP文本分类问题题目:1. 数据处理1.1 导入数据2. 特征向量化2.1 特性向量化 tfidf2.2 Word2Vec3. 训练分类器3.1. 线性支持向量分类LinearSVC()4. 预测并保存文本参考链接题目:数据包含2个csv文件:train_set.csv:此数据集用于训练模型,每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列:第一列是文...原创 2019-03-06 22:45:18 · 736 阅读 · 1 评论 -
NLP实战 -中文文本分类问题:THUCNews数据集
中文文本分类问题:THUCNews数据集1 THUCNews数据集与预处理1.1 数据集下载1.2 数据量1.3 预处理1.3.1 read_file(),读取文件数据;1.3.2 build_vocab()构建词汇表1.3.2 read_vocab()读取已存储的词汇表,2 特征向量化3 情感分析4 模型搭建4.1 CNN模型4.2 RNN模型5 参考1 THUCNews数据集与预处理1.1...原创 2019-03-03 21:28:55 · 7479 阅读 · 2 评论 -
中文文本分类问题:THUCNews数据集
中文文本分类问题:THUCNews数据集1 THUCNews数据集与预处理1.1 数据集下载1.2 数据量1.3 数据预处理1.3.1 导入数据1.3.2 将文字型的label 转为数字label2 特征工程2.1 TF-IDF并将文件保存至本地1 THUCNews数据集与预处理1.1 数据集下载本文采用了清华NLP组提供的THUCNews新闻文本分类数据集的子集数据下载链接:THUC...原创 2019-03-08 23:55:29 · 21847 阅读 · 7 评论 -
文本特征提取--TFIDF与Word2Vec
文本特征提取--TFIDF与Word2Vec1.TF-IDF1.1 定义1.2 计算过程:1.3 基于python的实现:1.4 优缺点1.TF-IDF1.1 定义TF-IDF:是一种加权技术。采用一种统计方法,根据字词在文本中出现的次数和在整个语料中出现的文档频率来计算一个字词在整个语料中的重要程度。1.2 计算过程:1.3 基于python的实现:from sklearn.feat...原创 2019-03-05 21:40:31 · 11460 阅读 · 0 评论 -
语言模型——n元语法模型
语言模型:n元语法模型1. 概念2. 类型:2.1 unigram model2.2 bigram model3. unigram、bigram频率统计;参考链接:1. 概念N-Gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设定好的...原创 2019-03-05 20:55:50 · 4408 阅读 · 1 评论 -
文本处理--中文分词
中文分词中文分词1. 分词的定义:1.1 百度百科:1.2 维基百科:2. 分词的难点:2.1 分词规范:2.2 歧义切分:2.3 未登录词识别:3. 分词算法设计的原则3.1 颗粒度越大越好:3.2 切分结果中非词典词越少越好,单字字典词数越少越好3.3 总体词数越少越好4. 中文分词的三大分词法·4.1 机械式分词法:4.1.1定义:4.1.2 优缺点:4.1.3常见的字...原创 2019-03-05 20:27:13 · 5648 阅读 · 0 评论