机器学习
律己宽人
追求卓越,成功只是附带的!
展开
-
task6-新闻文本分类-基于深度学习的文本分类-bert
学习目标了解Transformer的原理和基于预训练语言模型(Bert)的词表示 学会Bert的使用,具体包括pretrain和finetune学习bert的前置知识点有点多,我们先把前置的知识点梳理一遍,先上关系图:Attention将有限的注意力集中在重要的信息上,从而节省资源,快速获取最有效的信息。这就是简单的attention is all you need。个人理解:有个图书馆(source),里面有很多的书籍,为了方便管理我们给他们做了标签,形成(标签,书籍)-->(原创 2020-08-04 15:48:33 · 475 阅读 · 0 评论 -
task5-基于深度学习的新闻文本分类
@[toc]回顾在自然语言处理任务中,主要是两个:1、文本数据的表示。2、模型的选择处理。我们之前使用fasttext就是这两者的结合,他可以很快的训练处词向量,然后用softmax算法进行分类。这其中的所有过程对我们来说是透明的,细节我们都不清楚,所以为了更好的学习,接下来我们学习使用word2vec来训练词向量并使用textRNN或者TextCNN算法实现新闻文本分类效果word2vec的基本概念理解word2vec下面是datawhale给出的解释:本节通过word2ve...原创 2020-08-03 15:27:25 · 594 阅读 · 0 评论 -
NLP—新闻文本分类比赛—Task1赛题理解
学习目标理解赛题背景与赛题数据完成赛题报名和数据下载,理解赛题的解题思路结合datawhale学习小组提出的解决思路,提出自己的解决方案和思路赛题数据赛题以匿名处理后的新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。赛题数据由以下几个部分构成:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。为了预防选手原创 2020-07-22 09:22:54 · 283 阅读 · 0 评论