自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 NLP基础入门之新闻文本基于深度学习的文本分类Test6

NLP基础入门之新闻文本基于深度学习的文本分类Test6基于Bert的文本分类Bert主体代码参考目录基于Bert的文本分类Bert介绍BERT模型进一步增加词向量模型泛化能力,充分描述字符级、词级、句子级甚至句间关系特征。真正的双向encoding:Masked LM,类似完形填空,尽管仍旧看到所有位置信息,但需要预测的词已被特殊符号代替,可以放心双向encoding。Transformer做encoder实现上下文相关(context):使用transformer而不是bi-LSTM做en

2020-08-03 23:50:11 231

原创 NLP基础入门之新闻文本基于深度学习的文本分类Test5

NLP基础入门之新闻文本基于深度学习的文本分类Test5Word2Vector介绍相较于传统NLP的高维、稀疏的表示法(One-hot Representation),Word2Vec训练出的词向量是低维、稠密的。Word2Vec利用了词的上下文信息,语义信息更加丰富,目前常见的应用有:使用训练出的词向量作为输入特征,提升现有系统,如应用在情感分析、词性标注、语言翻译等神经网络中的输入层。直接从语言学的角度对词向量进行应用,如使用向量的距离表示词语相似度、query相关性等。在NLP中,最细粒度的

2020-07-31 22:53:22 204

原创 NLP基础入门之新闻文本基于深度学习的文本分类Test4

NLP基础入门之新闻文本基于深度学习的文本分类Test4使用FastText进行文本分类FastText训练结果引用文章使用FastText进行文本分类fasttext是facebook开源的一个词向量与文本分类工具,在2016年开源,典型应用场景是“带监督的文本分类问题”。提供简单而高效的文本分类和表征学习的方法,性能比肩深度学习而且速度更快。fastText结合了自然语言处理和机器学习中最成功的理念。这些包括了使用词袋以及n-gram袋表征语句,还有使用子字(subword)信息,并通过隐藏表征在

2020-07-27 21:44:16 259

原创 NLP基础入门之新闻文本基于机器学习的分类Test3

NLP基础入门之新闻文本基于机器学习的分类Test3使用不同分类器分类对比使用TD-IDF进行文本处理使用岭分类,LR以及决策树进行分类使用不同的TD-IDF参数进行验证使用不同分类器分类对比使用TD-IDF进行文本处理from sklearn.feature_extraction.text import TfidfVectorizertdf = TfidfVectorizer(ngram_range=(1,3), max_features=3000)参数设置为ngram_range=(1,3)

2020-07-23 22:30:02 118

原创 NPL基础入门之新闻本分类数据分析Test2

NPL基础入门之新闻本分类数据分析Test2数据读取数据分析标签分布(基matplitlit画图与Seabron对比)新闻内容长度分析数据读取因电脑内存限制无法一次性读取整个训练集,所以在暂时读取了50000条样本数据。data = pd.read_csv(r'C:\Users\pc\Desktop\数据挖掘\阿里天池\新闻文本分析\input\train_set.csv',sep='\t',nrows=50000)个人总结:当内存不足时可通过调整read_csv()参数调整:1、读取限定前行数

2020-07-22 00:17:51 345

原创 NPL基础入门之新闻本分类赛题理解Test1

NPL基础入门之新闻文本分类赛题理解Test1赛题背景评测标准赛题背景赛题以新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。赛题数据由以下几个部分构成:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。为了预防选手人工标注测试集的情况,我们将比赛数据的文本按照字符级别进行了匿名处理。处理后的赛题训练数据如下:在数

2020-07-20 23:32:13 338

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除