NLP
文章平均质量分 78
新小小小野
这个作者很懒,什么都没留下…
展开
-
NLP入门——天池新闻文本分类(6)基于深度学习的文本分类3)
NLP入门——天池新闻文本分类(5)基于深度学习的文本分类3学习目标AttentionAttention 机制Self-AttentionTransformerMulti-headed attention(多头怪)Encoder-Decoder-AttentionAdd&Norm (残差模块)代码实现细节:Bert预训练模型分类:不同模型的建模:代码实践:bert_path 指的是目录,他要找到对应的config和vocab学习目标• 了解Transformer的原理和基于预训练语言模型(Ber原创 2020-08-05 00:01:11 · 502 阅读 · 0 评论 -
NLP入门——天池新闻文本分类(5)基于深度学习文本分类2
NLP入门——天池新闻文本分类(5)基于深度学习的文本分类2深度模型word2vecSkip-grams(SG)过程Skip-grams训练word2Vec训练词向量TextCNNtextCNN Datawhale实现深度模型前面提到新闻文本分类任务可以拆分成两步来进行,第一步先将文本表示成词向量,第二步则使用机器学习或深度学习模型来对模型输入(词向量)进行分类处理。因为模型的提升也可以从这两个方面来着手。第一种思路是选择更为合适的词向量方法,比如从one-hot词向量转变成Word2vec词向量;而第原创 2020-08-02 01:17:29 · 705 阅读 · 0 评论 -
NLP入门——天池新闻文本分类(4)基于深度学习文本分类1
NLP入门——天池新闻文本分类(3)基于深度学习的文本分类基于深度学习的文本分类学习目标文本表示方法 Part2之前的文本表示方法的缺陷FastText基于FastText的文本分类使用交叉验证集调参本章作业基于深度学习的文本分类深度学习的模型既可以提供特征提取的功能,也可以完成分类。学习目标学习FastText的使用和基础原理学会使用验证集进行模型参数调优文本表示方法 Part2之前的文本表示方法的缺陷之前我们对文档提供的表示方法包括One-hotBag of WordsN-g原创 2020-07-27 23:23:42 · 318 阅读 · 0 评论 -
NLP入门——天池新闻文本分类(3)基于机器学习的文本分类
NLP入门——天池新闻文本分类(3)基于机器学习的文本分类基于机器学习的文本分类学习目标机器学习模型基于机器学习的文本分类这一次任务中会使用机器学习的模型来进行文本分类。机器学习的模型十分丰富,并且包括很多个分支。本次将使用一些传统机器学习进行文本分类。学习目标学会TF-IDF的原理和使用使用sklearn的机器学习模型来进行文本分类机器学习模型机器学习中的分类模型有很多种,常见的分类器有K近邻、决策树、随机森林、支撑向量机、朴素贝叶斯、逻辑回归等等,本章中我们会用到...原创 2020-07-25 17:46:16 · 441 阅读 · 0 评论 -
NLP入门——天池新闻文本分类(2)数据读取与数据分析
NLP入门——天池新闻文本分类(2)数据读取与数据分析数据读取与数据分析学习目标数据读取数据分析1.新闻文本长度2.新闻类别分类3.字符分布统计数据分析的结论本章作业1.假设字符3750,字符900和字符648是句子的标点符号,请分析赛题每篇新闻平均由多少个句子构成?2.统计每类新闻中出现次数最多的字符3.作业分析中的结论数据读取与数据分析本章内容为数据读取与数据分析,使用Pandas完成数据读取,并对数据构成进行分析学习目标使用Pandas完成赛题数据的读取分析赛题数据的分布情况数据读取原创 2020-07-22 16:49:49 · 792 阅读 · 0 评论 -
NLP入门——天池新闻文本分类(1)赛题理解
NLP入门——天池新闻文本分类(1)赛题理解赛题理解学习目标赛题数据数据标签评测指标读取数据解题思路赛题理解赛题名称:零基础入门NLP之新闻文本分类赛题目标:入门自然语言处理,熟悉相关机器学习和深度学习的方法和算法。赛题任务:对来自互联网的新闻文本进行分类,也是一个典型字符识别的问题。学习目标理解赛题背景与赛题数据下载赛题数据,理解赛题的思路赛题数据赛题的数据报名后即可下载,数据为新闻文本,并且进行了字符级别的匿名处理。数据文本中包含14个类别:财经、彩票、房产、股票、家居、教育、原创 2020-07-20 01:41:53 · 468 阅读 · 0 评论