机器学习项目(三) 达观杯nlp比赛(一)

达观杯

赛前介绍和准备

什么是NLP

文本分类、文本相似度、序列标注、阅读理解、机器翻译、信息抽取等

怎么打NLP比赛

1.背景知识
2.查阅资料
3.手撕代码
4.团队协作
达观杯比赛

竞赛背景

2018年人工智能的发展在运算智能和感知智能已经取得了很大的突破和优于人类的表现。而在以理解人类语言为入口的认知智能上,目前达观数据自然语言处理技术已经可以实现文档自动解析、关键信息提取、文本分类审核、文本智能纠错等一定基础性的文字处理工作,并在各行各业得到充分应用。

自然语言处理一直是人工智能领域的重要话题,而人类语言的复杂性也给 NLP 布下了重重困难等待解决。长文本的智能解析就是颇具挑战性的任务,如何从纷繁多变、信息量庞杂的冗长文本中获取关键信息,一直是文本领域难题。随着深度学习的热潮来临,有许多新方法来到了 NLP 领域,给相关任务带来了更多优秀成果,也给大家带来了更多应用和想象的空间。

此次比赛,达观数据提供了一批长文本数据和分类信息,希望选手动用自己的智慧,结合当下最先进的NLP和人工智能技术,深入分析文本内在结构和语义信息,构建文本分类模型,实现精准分类。未来文本自动化处理的技术突破和应用落地需要人工智能从业者和爱好者的共同努力,相信文本智能处理技术因为你的算法,变得更加智能!

任务

建立模型通过长文本数据正文(article),预测文本对应的类别(class)

数据

数据包含2个csv文件:

》train_set.csv:此数据集用于训练模型,每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列:
第一列是文章的索引(id),第二列是文章正文在“字”级别上的表示,即字符相隔正文(article);第三列是在“词”级别上的表示,即词语相隔正文(word_seg);第四列是这篇文章的标注(class)。
注:每一个数字对应一个“字”,或“词”,或“标点符号”。“字”的编号与“词”的编号是独立的!

》test_set.csv:此数据用于测试。数据格式同train_set.csv,但不包含class。
注:test_set与train_test中文章id的编号是独立的。

友情提示:请不要尝试用excel打开这些文件!由于一篇文章太长,excel可能无法完整地读入某一行!

评分标准

评分算法

binary-classification
采用各个品类F1指标的算术平均值,它是Precision 和 Recall 的调和平均数。
⟨ F 1 ⟩ = 1 n ∑ i n F 1 i = 1 n ∑ i n 2 ⋅ P i ⋅ R i P i + R i \langle F 1\rangle=\frac{1}{n} \sum_{i}^{n} F 1_{i}=\frac{1}{n} \sum_{i}^{n} \frac{2 \cdot P_{i} \cdot R_{i}}{P_{i}+R_{i}} F1=n1inF1i=n1inPi+Ri2PiRi
其中,Pi是表示第i个种类对应的Precision, Ri是表示第i个种类对应Recall。



import pandas as pd
train = pd.read_table('./new_data/train_set.csv',delimiter=',')
print(train.head())

如何构建文本的特征

给定一篇文章和对应的类别,如何找到文章的特征
转化成结构化特征

机器学习方法:

LDA主题模型
LSI主题模型
TFIDF
逻辑回归(LR)
支持向量机(SVM)
LightGBM

深度学习方法

卷积神经网络(CNN)
循环神经网络(RNN)
Transformer
全连接层+Softmax

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值