![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP学习
小俊俊的博客
沉迷于摸鱼的程序员
展开
-
NLP学习5-基于深度学习的文本分类2
NLP学习5-基于深度学习的文本分类2 一.学习目标 1.学习Word2Vec的使用和基础原理 2.学习使用TextCNN、TextRNN进行文本表示 二.Word2Vec 基本思想:通过单词和上下文彼此预测 对应的两个基本算法 1.Skip-grams (SG):预测上下文 2.Continuous Bag of Words (CBOW):预测目标单词 三.TextCNN TextCNN利用CNN(卷积神经网络)进行文本特征抽取,不同大小的卷积核分别抽取n-gram特征,MaxPooling之后拼接成文本原创 2020-07-31 21:18:28 · 195 阅读 · 0 评论 -
NLP学习4-基于深度学习的文本分类(FastText)
NLP学习4-基于深度学习的文本分类(FastText) 一,学习目标 1.学习FastText的使用和基础原理 2.学会使用验证集进行调参 二,fastText原理 fastText优点是可以快速的在cpu上进行训练,但是准确率不高。 fastText将输入的文本特征通过一层全连接层映射到向量空间,然后将词向量平均处理一下,去做预测。 keras模型搭建如图: 三,fastText的实现 1.pip安装fastText pip3 install fasttext 2.代码 import pandas原创 2020-07-27 21:34:42 · 243 阅读 · 0 评论 -
NLP学习3-基于机器学习的文本分类
NLP学习-基于机器学习的文本分类 一,学习目标 1.学会TF-IDF的原理和使用 2. 使用sklearn的机器学习模型完成文本分类 二,文本表示方法 之前只接触过图像处理,对于语音信号的表示方法不了解,刚好借此机会了解。 在深度学习中,主要的两个分支主要是基于CNN的图像处理,和基于RNN的语音信号处理。在图像处理中,主要通过CNN的卷积操作,提取特征图,进行后续的识别和其他操作。但是在自然语言领域,由于文本是不定长的,文本通常是表示为数字或向量,将不定长的文本转化到定长的空间中。例如接下来的几种方法:原创 2020-07-25 20:25:16 · 385 阅读 · 0 评论 -
NLP学习2-数据读取与数据分析
NLP学习2-数据读取与数据分析 一,数据读取 下载数据 1.train_set.csv.zip 2.test_a.csv.zip 3.test_a_sample_submit.csv 读取数据 import pandas as pd train_df = pd.read_csv('/home/jun/NLP/input/train_set.csv', sep='\t', nrows=100) 数据路径我使用的是绝对路径,nrows值设小一点,太大会卡电脑 二,数据分析 1.句子长度分析 %pylab i原创 2020-07-22 12:55:59 · 248 阅读 · 0 评论 -
NLP学习1-赛题理解及评价指标
NLP学习1-赛题理解及评价指标 一,学习目标 1.理解赛题背景应用 2.理解赛题评价指标 3.报名并下载数据 二,比赛报名 地址:天池NLP-新闻文本分类 三,赛题理解 通过竞赛,入门NLP自然语言处理,了解NLP的预处理,模型构建和模型训练等技巧。对新闻文本进行分类 四,数据结构 1.赛题数据为新闻文本,划分出14个分类类别 财经,彩票,房产,股票,家居,教育,科技,社会,时尚,时政,体育,星座,游戏,娱乐。 2.数据结构 训练集20W条样本,测试集A包括5w条样本,测试集B包括5w条样本。 3.标签对原创 2020-07-22 12:03:38 · 184 阅读 · 0 评论