NLP实践
nuoyi0618
这个作者很懒,什么都没留下…
展开
-
【NLP】天池新闻文本分类——基于深度学习的文本分类3(BERT)
目录理论Transformer原理基于预训练语言模型的词表示基于Bert的文本分类Bert PretrainBert Finetune理论Transformer原理Transformer是在"Attention is All You Need"中提出的,模型的编码部分是一组编码器的堆叠(论文中依次堆叠六个编码器),模型的解码部分是由相同数量的解码器的堆叠。我们重点关注编码部分。他们结构完全相同,但是并不共享参数,每一个编码器都可以拆解成两部分。在对输入序列做词的向量化之后,它们首先流过一个self原创 2020-08-02 16:33:19 · 753 阅读 · 0 评论 -
【NLP】天池新闻文本分类——Task5 基于深度学习的文本分类2
目录Word2Vec的使用和基础原理Skip-grams原理和网络结构Skip-grams训练Word pairs and "phases"对高频词抽样Negative samplingHierarchical Softmax霍夫曼树Hierarchical Softmax过程代码实现使用TextCNN、TextRNN进行文本表示TextCNNkeras实现TextRNNkeras实现使用HAN网络结构完成文本分类Word2Vec的使用和基础原理Skip-grams原理和网络结构Word2Vec模型中原创 2020-07-31 15:27:45 · 285 阅读 · 0 评论 -
【NLP】天池新闻文本分类——Task4 基于深度学习的文本分类1(fastText)
目录FastText交叉验证Fasttext实现基于keras基于fasttext包FastTextOne-hotBag of WordsN-gramTF-IDF等文本表示方法存在一定缺陷转,换得到的向量维度很高,需要较长的训练实践;没有考虑单词与单词之间的关系,只是进行了统计。与这些表示方法不同,深度学习也可以用于文本表示,还可以将其映射到一个低纬空间。其中比较典型的例子有:FastText、Word2Vec和Bert。在本章我们将介绍FastText,将在后面的内容介绍Word2Vec和原创 2020-07-27 17:13:22 · 270 阅读 · 0 评论 -
【NLP】天池新闻文本分类——基于机器学习的文本分类
目录文本表示方法one-hotBag of WordsN-gramTF-IDF文本表示方法在自然语言领域,上述方法却不可行:文本是不定长度的。文本表示成计算机能够运算的数字或向量的方法一般称为词嵌入(Word Embedding)方法。词嵌入将不定长的文本转换到定长的空间内,是文本分类的第一步。one-hot这里的One-hot与数据挖掘任务中的操作是一致的,即将每一个单词使用一个离散的向量表示。具体将每个字/词编码一个索引,然后根据索引进行赋值。One-hot表示方法的例子如下:句子1:我 爱原创 2020-07-25 21:15:29 · 1343 阅读 · 2 评论 -
天池新闻文本分类——数据读取与数据分析
目录数据读取数据分析句子长度分析新闻类别分布字符分布统计数据分析的结论作业数据读取赛题数据虽然是文本数据,每个新闻是不定长的,但任然使用csv格式进行存储。因此可以直接用Pandas完成数据读取的操作。import pandas as pdtrain_df = pd.read_csv('data/train_set.csv', sep='\t', nrows=100)read_csv由三部分构成:读取的文件路径,这里需要根据改成你本地的路径,可以使用相对路径或绝对路径;分隔符sep,为每列分原创 2020-07-22 17:28:50 · 878 阅读 · 0 评论 -
【NLP】天池新闻文本分类——赛题理解
目录引言数据说明评价指标解题思路思路一:TF-IDF + 机器学习分类器思路二:FastText思路三:WordVec + 深度学习分类器思路四:Bert词向量引言赛题名称:零基础入门NLP之新闻文本分类赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。数据说明赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、原创 2020-07-20 10:03:10 · 622 阅读 · 0 评论