天池-新闻文本分类
赛题以匿名处理后的新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。
波心冷血
入坑NLP的渣渣
展开
-
预训练模型BERT简单介绍
1.BERT模型BERT的全称是Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder,因为decoder是不能获要预测的信息的。模型的主要创新点都在pre-train方法上,即用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation。1.1 BERT的模型结构BERT模型进一步增加词向量模型泛化能力,充分描述字符级、词级、句子原创 2020-08-05 00:08:40 · 2805 阅读 · 0 评论 -
基于深度学习的文本分类
学习内容学习word2vec学习textcnn、textrnn学习使用HAN网络结构完成文本分类1 学习Wordvec前面写了使用tf-idf提取特征,然后使用xgb分类的方法,可以完成不错的准确率,但是one-hot编码没有语义信息,且稀疏性问题严重,浪费大量的计算资源。寻找一种既能包含语义信息,有能压缩词向量维度的方法。因此引入了Wordvec。word2vec模型背后的基本思想是对出现在上下文环境里的词进行预测。对于每一条输入文本,我们选取一个上下文窗口和一个中心词,并基于这个中心词去原创 2020-07-31 22:29:28 · 1542 阅读 · 0 评论 -
FastText原理与文本分类实战
1.FastText原理1.1 fasttext简介fasttext是一个快速文本分类的算法,有几个优点:fastText 在保持精确度的条件下加快了训练和测试的速度fastText 不需要预先训练好的词向量,fasttext可以自己训练词向量fastText 使用了层级softmax和字符级N-gram1.2 fasttext 的网络模型结构fasttext模型与word2vec中的CBOW很相似,不同之处是fastText预测标签而CBOW预测的是中间词,即模型架构类似但是模型原创 2020-07-27 21:11:09 · 357 阅读 · 0 评论 -
Tf-idfVectorizer 与CountVectorizer详解
Tf-idfVectorizer 与CountVectorizer详解1 机器学习文本分类机器学习是对能通过经验自动改进的计算机算法的研究。机器学习通过历史数据训练出模型对应于人类对经验进行归纳的过程,机器学习利用模型对新数据进行预测对应于人类利用总结的规律对新问题进行预测的过程。文本表示方法One-hotOne-hot与数据挖掘任务中的操作是一致得,每一个单词使用一个离散的向量表示,具体将每一个字、词使用一个索引(语料库vocab)表示,向量的长度的是语料库vocab中词的个数,词袋模型该原创 2020-07-25 22:18:57 · 1186 阅读 · 0 评论 -
task-2-数据读取与分析
import pandas as pdimport matplotlib.pyplot as plt# 误区1,pd,read_csv('直接读取会报错')train_df = pd.read_csv('./data/train_set.csv',sep='\t')train_df.head(10) label text 0 2 2967 6758 339 2021原创 2020-07-22 22:15:21 · 185 阅读 · 0 评论 -
新闻文本分类-赛题理解
新闻文本分类 - 赛题理解赛题介绍赛题名称 :零基础入门新闻文本分类赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。赛题数据赛题以匿名处理后的新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。赛题数据由以下几个部分构成:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样原创 2020-07-21 19:28:04 · 228 阅读 · 0 评论