“达观杯”文本智能处理挑战赛-任务一

最新推荐文章于 2019-07-08 22:58:14 发布

understarsky

最新推荐文章于 2019-07-08 22:58:14 发布

阅读量213

点赞数

本文链接：https://blog.csdn.net/weixin_40238020/article/details/89047007

版权

一、“达观杯”文本智能处理挑战赛

竞赛信息
任务、数据说明与评分标准

二、读取并观察数据

1. 下载数据，读取数据，观察数据

直接读取数据用时较长，先使用narows参数读取前5000条数据观察数据

import pandas as pd
from sklearn.model_selection import train_test_split
import time
#直接读取数据用时较长
%%time 
df_train = pd.read_csv('train_set.csv') 

Wall time: 2.71 s

#使用narows参数读取前5000条数据观察数据
%%time
df_train = pd.read_csv('train_set.csv',nrows=5000)
df_train .head()

数据展示如下

数据集

文本分类类别：

df_train ['class'].unique()
a = list(df_train ['class'].unique())
print(sorted(a))
print(df_train .iloc[0,1])
print(df_train .iloc[0,2])

在这里插入图片描述

可以看出，article和word_seg属性为数字，每个数字表示一个字符或词，class属性表示类别，总共19类。

3. 训练集划分

X_train, X_vali, Y_train, Y_vali = train_test_split(df_train[['word_seg','article']], df_train[['class']], test_size=0.2, random_state=1)

划分后数据集概况

在这里插入图片描述

4. 对数据以及赛题的理解和发现

1.数据

通过对文章正文在“字”级别上的表示，即字符相隔正文(article)和在“词”级别上的表示，即词语相隔正文(word_seg)，预测文章类别，归类到class字段中。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

understarsky

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

【Kaggle】一：【文本分类】“达观杯”文本智能处理挑战赛

InitialHeart2021的博客

09-07

808

十强选手方案_“达观杯”文本智能信息抽取挑战赛.pdf

10-19

在"达观杯"文本智能信息抽取挑战赛中，参赛队伍运用了先进的机器学习技术，特别是BERT模型，来进行信息提取任务。BERT，全称为Bidirectional Encoder Representations from Transformers，是一种深度学习模型，它在...

参与评论您还未登录，请先登录后发表或查看评论

Python-达观杯文本智能处理挑战赛文本分类任务的实现

08-11

’达观杯‘文本智能处理挑战赛，文本分类任务的实现，包括一些传统的监督学习算法和深度学习算法，主要基于sklearn/xgb/lgb/pytorch包实现。

【数据竞赛】“达观杯”文本智能处理挑战赛１

盛夏光年

04-05

551

一、数据竞赛简介 “达观杯”文本智能处理挑战赛 １、任务建立模型通过长文本数据正文(article)，预测文本对应的类别(class) ２、数据传送门：链接: https://pan.baidu.com/s/11AOOn0xlv0TZjGeFfRc3Rw 提取码: 58r9 数据包含2个csv文件： train_set.csv：此数据集用于训练模型，每一行对应一篇文章。文章分别在“字”和“词...

达观杯文本智能处理挑战赛

极歌科技

10-19

455

笔者尝试了一下达观杯的比赛，代码如下图所示： import pandas as pd import imp from sklearn.linear_model import LogisticRegression from sklearn.feature_extraction.text import CountVectorizer df_test = pd.read_csv(r't...

达观杯”文本智能处理挑战赛

weixin_38966454的博客

04-10

221

回顾任务1-----对数据进行初步的预处理： https://blog.csdn.net/weixin_38966454/article/details/89046445 任务2----F-IDF算法实现 https://blog.csdn.net/weixin_38966454/article/details/89058683 Now 任务3—word2vec算法实现 1.什么是word2ve...

cpp-2018年达观杯文本智能处理挑战赛长文本分类rank4

08-16

【标题】"cpp-2018年达观杯文本智能处理挑战赛长文本分类rank4"揭示了这个项目是关于使用C++编程语言在2018年的“达观杯”文本智能处理挑战赛中，针对长文本分类任务的一个解决方案，并且在比赛中取得了第四名的成绩...

’达观杯‘文本智能处理挑战赛，文本分类任务的实现

01-17

’达观杯‘文本智能处理挑战赛，文本分类任务的实现，包括一些传统的监督学习算法和深度学习算法，主要基于sklearn/xgb/lgb/pytorch包实现。

“达观杯”文本智能处理挑战赛

帽帽的博客

09-18

636

竞赛背景： 2018年人工智能的发展在运算智能和感知智能已经取得了很大的突破和优于人类的表现。而在以理解人类语言为入口的认知智能上，目前达观数据自然语言处理技术已经可以实现文档自动解析、关键信息提取、文本分类审核、文本智能纠错等一定基础性的文字处理工作，并在各行各业得到充分应用。自然语言处理一直是人工智能领域的重要话题，而人类语言的复杂性也给 NLP 布下了重重困难等待解决。长文本的智能解析...

1.第一场机器学习竞赛--达观杯”文本智能处理挑战赛

qq_42078499的博客

07-08

164

2018年人工智能的发展在运算智能和感知智能已经取得了很大的突破和优于人类的表现。而在以理解人类语言为入口的认知智能上，目前达观数据自然语言处理技术已经可以实现文档自动解析、关键信息提取、文本分类审核、文本智能纠错等一定基础性的文字处理工作，并在各行各业得到充分应用。自然语言处理一直是人工智能领域的重要话题，而人类语言的复杂性也给 NLP 布下了重重困难等待解决。长文本的智能解析就是颇具挑战性...

sklearn文本特征提取与“达观杯”文本智能处理挑战赛

学习机器学习

09-08

846

参加的第一个线上比赛，经历了下比赛过程，记录下。这个比赛比较简单，主要是要调参费时间，只提交了两次结果，下次比赛认真对待。核心思路：文本矢量化后进行逻辑回归训练。 print("start....") ## 导入需要的库 import pandas as pd from sklearn.linear_model import LogisticRegression from sk...

“达观杯”文本智能处理挑战赛①：Introduction

IOT_victor的博客

04-05

335

1.任务描述达观杯是一个长文本分类问题，文本的长度非常长，最长的句子超过1w个词，一般任务也就300词。文本进行过脱敏处理，任务目标是判断文本数据属于什么类别，类别总共有19种。比如给你一段新闻文章，判断文章属于经济、政治还是娱乐或者其他的类别。横坐标是种类名称(脱敏的)，纵坐标是对应的语料数量。建立模型通过长文本数据正文(article)，预测文本对应的类别(class)。传...

“达观杯”文本智能处理挑战赛，季军带你飞

CSDN人工智能头条

01-29

257

作者：乐雨泉(yuquanle)，湖南大学在读硕士，研究方向机器学习与自然语言处理。欢迎志同道合的朋友和我在公众号"AI 小白入门"一起交流学习。前段时间和朋友何从庆(A...

【数据竞赛】“达观杯”文本智能处理挑战赛1-２

min954584739的博客

04-07

581

比赛：达观杯比赛官方对数据的说明是数据包含两个文件：train_set.csv和test_set.csv 具体说明： a. 下载数据，读取数据，观察数据将训练集拆分为训练集和验证集分享自己对数据以及赛题的理解和发现 PS. 电脑爆内存的，可以先提取5000条数据进行实践~ 或者群内求助一下达观杯比赛链接：https://m.dcjingsai.com/competition...

达观杯-文本智能处理挑战赛-05

zhengdadalalala的博客

04-13

258

一、LightGBM原理简介传统的boosting算法（如GBDT和XGBoost）已经有相当好的效率，但是在如今的大样本和高维度的环境下，传统的boosting似乎在效率和可扩展性上不能满足现在的需求了，主要的原因就是传统的boosting算法需要对每一个特征都要扫描所有的样本点来选择最好的切分点，这是非常的耗时。为了解决这种在大样本高纬度数据的环境下耗时的问题，Lightgbm使用了如下两种...

“达观杯”文本智能处理挑战赛-任务二

weixin_40238020的博客

04-07

600

一、TF-IDF理论 1.百科介绍： TF-IDF（term frequency–inverse document frequency）是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency)，IDF意思是逆文本频率指数(Inverse Document Frequency)。 2.原理 TF 在一份给定的文件里，词频(term frequency, TF)指的是...

【数据竞赛】“达观杯”文本智能处理挑战赛２

盛夏光年

04-06

363

文章目录一、TF_IDF原理1、TF（item frequency）2、逆向文件频率IDF（inverse document frequency）3、TF－IDF二、TF-IDF算法实现1、方法一2、方法二三、达观实践一、TF_IDF原理 TF-IDF（Term Frequency - Inverse Document Frequency，词频-逆文本频率）。TF-IDF是一种统计方法，用以评...

“达观杯”文本智能处理挑战赛代码示例

湾区人工智能

12-03

1082

达观杯介绍：类似kaggle的数据科学比赛，任何人可以参加网址：http://www.dcjingsai.com/ 可以用支付宝实名注册项目名称： “达观杯”文本智能处理挑战赛 安装Python，运行如下代码。可以得到一个分数项目代码： ''' 作者：公众号：湾区人工智能场景：达观杯文本智能竞赛 http://www.pkbigdata.com/comm...

达观杯智能信息抽取挑战赛获奖方案详析

资源摘要信息:"2019年达观杯智能信息抽取挑战赛获奖方案.zip"文件包含了参加达观杯大赛的优秀作品，这是一个专门针对智能信息抽取技术的竞赛。参赛者提交的作品不仅能够帮助其他参赛者学习和参考，同时也对智能信息...