NLP学习
叶锦小兴
我好帅
展开
-
Task6 基于深度学习的文本分类3
Task6 基于深度学习的文本分类36.1 学习目标1.了解Transformer的原理和基于预训练语言模型(Bert)的词表示。2.学会Bert的使用,具体包括pretrain和finetune。6.2 文本表示方法Part46.2.1 Transformer原理Transformer是在“Attention is All You Need”中提出的,模型的编码部分是一组编码器的堆叠(论文中依次堆叠六个编码器),模型的解码部分是由相同数量的解码器的堆叠。编码部分的结构完全相同,但是并不共享原创 2020-08-04 14:42:31 · 195 阅读 · 1 评论 -
Task5 基于深度学习的文本分类2
Task5 基于深度学习的文本分类2这一节尝试寻找更优的深度学习的文本分类模型。5.1 学习目标1.学习Word2Vec的使用和基础原理2.学习使用TextCNN、TextRNN进行文本分类。3.学习使用HAN网络结构完成文本分类。5.2 文本表示方法part35.2.1 词向量本节通过word2vec学习词向量。word2vec模型背后的基本思想是对出现在上下文环境里的词进行预测。具体做法是对于每一条输入文本,选取一个上下文窗口和一个中心词,并基于这个中心词去预测窗口里其他词出现的概率。w原创 2020-07-30 22:51:24 · 375 阅读 · 0 评论 -
Task 4 基于深度学习的文本分类1
Task 4 基于深度学习的文本分类1与传统机器学习不同,深度学习即提供特征提取功能,也可以完成分类的功能。4.1 学习目标1.学习FastText的使用和基础原理2.学会使用验证集进行调参4.2 现有文本表示方法的缺陷上一章节介绍了几种文本表示方法:1.One-hot2.Bag of Words3.N-gram4.TF-IDF上述方法或多或少都存在一定的问题:转换得到的向量维度很高,需要较长的训练时间;没有考虑单词与单词之间的关系,只是进行了统计。与上述方法不同,深度学习也可以用于原创 2020-07-27 16:41:41 · 204 阅读 · 0 评论 -
Task3 基于机器学习的文本分类
Task3 基于机器学习的文本分类本章将使用传统机器学习算法来完成新闻分类的过程。3.1 学习目标1.学会TF-IDF的原理和使用2.使用sklearn的机器学习模型完成文本分类3.2 机器学习模型机器学习是对能通过经验自动改进的计算机算法的研究。机器学习通过历史数据训练出模型对应人类对经验进行归纳的过程;机器学习利用模型对新数据进行预测对应于人类利用总结的规律对新问题进行预测的过程。机器学习有很多分支,初学者应该优先掌握机器学习算法的分类,然后对其中一种机器学习算法进行学习。作为一名机器学习原创 2020-07-25 15:17:58 · 557 阅读 · 0 评论 -
Task 2 数据读取与数据分析
Task 2 数据读取与数据分析1.学习目标1.学习使用Pandas读取赛题数据2.分析赛题数据的分布规律2.数据读取数据采用csv格式存储,可以直接用pandas进行数据读取的操作。这里的read_csv是读取csv文件的通用方法,第一个参数是文件路径,第二个参数为分隔符,如果想控制读取的行数可以加上第三个参数nrows。head()函数返回对象的前n行,缺省为5。运行后可以看到读取后的数据,有分类标签label,文本数据text,为表格的形式。3.数据分析读取数据集后可以对数据进行原创 2020-07-22 16:27:42 · 248 阅读 · 0 评论 -
Task1 赛题理解
Task1 赛题理解1.赛题理解1.赛题名称:零基础入门NLP之新闻文本分类。2.赛题目标:接触NLP的预处理、模型构建和模型训练等知识点。3.赛题任务:以自然语言处理为背景,对新闻文本进行分类,是一个典型的字符识别问题。1.1 学习目标理解赛题背景及赛题数据,理解赛题的解题思路1.2 赛题数据赛题数据为新闻文本,按照字符级别进行匿名处理。一共有14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。1.3 数据标签数据集中标签对应关系为原创 2020-07-20 16:18:08 · 167 阅读 · 0 评论