NLP文本分类
M.〽
这个作者很懒,什么都没留下…
展开
-
自然语言处理实践(新闻文本分类)——task06
基于深度学习的文本分类BERT训练BERT (Bidirectional Encoder Representations from Transformers):可以用于问答系统,情感分析,垃圾邮件过滤,命名实体识别,文档聚类等任务中,作为这些任务的基础设施即语言模型。BERT 的创新点在于它将双向 Transformer 用于语言模型,之前的模型是从左向右输入一个文本序列,或者将 left-to-right 和 right-to-left 的训练结合起来。实验的结果表明,双向训练的语言模型对语境的原创 2020-08-04 21:10:00 · 274 阅读 · 0 评论 -
自然语言处理实践(新闻文本分类)——task05
基于深度学习的文本分类Word2vec + TextCNNWord2vec:原创 2020-07-31 22:49:24 · 460 阅读 · 0 评论 -
自然语言处理实践(新闻文本分类)——task04
基于深度学习的文本分类1FastTextFastText结构简图:fasttext.supervised 参数如下:参数作用input_file训练文件路径(必须)output输出文件路径(必须)label_prefix标签前缀 default labellr学习率 default 0.1lr_update_rate学习率更新速率 default 100dim词向量维度 default 100ws上下文窗口大小 default原创 2020-07-27 20:52:56 · 178 阅读 · 0 评论 -
自然语言处理实践(新闻文本分类)——task03
基于机器学习的文本分类TF-IDFTF-IDF算法是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度。TF-IDF实践步骤,也即是一般的文本处理和模型训练步骤:1.获取原始文本内容信息。2.转换成纯小写,按空格把文章分成独立的词组成的list。3.去除噪音符号: [""","=","\","/",":","-","(",")",",",".","\n"]等4.去除停用词5.提取词干,把相近的词转换为标准形式,比如把文章中的go,going,went,原创 2020-07-25 21:57:29 · 346 阅读 · 0 评论 -
自然语言处理实践(新闻文本分类)——task02
数据分析句子长度分析由赛题题目得知,赛题数据中每行句子的字符使用空格进行隔开,所以可以直接统计单词个数来得到每个句子的长度。总共有20万行数据,其中数据最长的句子有57921个单词,数据最短的句子仅有2个单词。画出直方图如下,可以看到大多句子数据在1500~3000左右新闻类别分布统计每类新闻的样本个数,画出直方图可以0标签的新闻数量最多,根据标签数字的大小依次递减,可以看出该数据集分布不均匀。字符分布统计统计整个数据集中每个字符所出现的次数。由于内存无法支持全部数据的原创 2020-07-22 22:30:15 · 255 阅读 · 0 评论 -
自然语言处理实践(新闻文本分类)——task01
自然语言处理实践(新闻文本分类)自然语言处理( NLP )是信息时代最重要的技术之一,也是人工智能的重要组成部分。NLP的应用无处不在,因为人们几乎用语言交流一切:网络搜索、广告、电子邮件、客户服务、语言翻译、医疗报告等。近年来,深度学习方法在许多不同的NLP任务中获得了非常高的性能,使用了不需要传统的、任务特定的特征工程的单个端到端神经模型。在本课程中,学生将全面了解NLP深度学习的前沿研究。通过讲座、作业和最终项目,学生将学习设计、实现和理解他们自己的神经网络模型的必要技能。赛题理解赛题数据根原创 2020-07-21 17:09:26 · 336 阅读 · 0 评论