数据竞赛达观杯-数据初识

最新推荐文章于 2022-04-21 09:51:12 发布

tinymd

最新推荐文章于 2022-04-21 09:51:12 发布

阅读量455

点赞数

分类专栏：数据竞赛

本文链接：https://blog.csdn.net/tinymd/article/details/88067133

版权

数据竞赛专栏收录该内容

1 篇文章

订阅专栏

首先是报名竞赛，下载数据，比赛链接。
数据下好之后会有一个train_set和test_set。我们先把train_set分为train_set和valid_set。
先把csv格式数据读入python中
csv读入会以下两种办法：

用csv标准库读取

import csv
csv_reader = csv.reader(open("train_set.csv"))

用pandas读取

import pandas as pd
data = pd.read_csv("train_set.csv")

至于分解成两个数据集，不需要我们再随机选取，scikit-learn中有一函数train_test_split随机划分数据集和训练集

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(data[['article','word_seg']], data['class'], test_size=0.3,random_state=2019)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

tinymd

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

2018年NLP达观杯-复盘

GreatXiang888的博客

09-28

3322

2018年NLP达观杯-复盘前言数据预处理特征工程功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入前言我是xx学校的...

达观杯数据竞赛项目--提取TF-IDF特征（Date2）

qq_39446239的博客

04-07

1064

文章目录初识TF-IDF概念原理优缺点TF-IDF实现TF-IDF的python实现sklearn提取TF-IDF特征pickle 存储数据参考资料任务要求：学习TF-IDF理论并实践，使用TF-IDF表示文本初识TF-IDF 概念 TF-IDF（term frequency–inverse document frequency）是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Te...

参与评论您还未登录，请先登录后发表或查看评论

达观杯数据竞赛系列（一）

qq_41698853的博客

04-05

513

达观杯数据竞赛系列（一） 1，下载数据，读取数据，观察数据：压缩的数据近1个G，解压后的数据也是2.6个G，分为两个csv文件。数据包含2个csv文件：》train_set.csv：此数据集用于训练模型，每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列：第一列是文章的索引(id)，第二列是文章正文在“字”级别上的表示，即字符相隔正文(article)；第三列是在“...

达观杯数据竞赛 01

Iceforest的博客

03-01

323

比赛地址这是一个NLP类型的数据比赛，小白一个，初步了解学习目标： 1. 下载数据，读取数据，观察数据 2. 将训练集拆分为训练集和验证集。要求：数据3-7分，随机种子2019 3. 分享自己对数据以及赛题的理解和发现首先导入读取数据和分割数据所需要用的Python包 import pandas as pd from sklearn.model_selection im...

【达观杯】数据竞赛学习篇（一）

xiu351084315的博客

04-05

339

1、下载数据数据下载地址：http://www.dcjingsai.com/common/cmpt/“达观杯”文本智能处理挑战赛_赛体与数据.html 得到训练集数据train_set.csv和测试集数据test_set.csv 其中： train_set.csv：此数据集用于训练模型，每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列：第一列是文章的索引(id...

（一）“达观杯”赛题和数据解读

ylHe

04-05

244

题目：建立模型通过长文本数据正文(article)，预测文本对应的类别(class) 。题目解读：文本分类任务的实现，本矢量化后进行逻辑回归训练。数据：》train_set.csv：此数据集用于训练模型，每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列：第一列是文章的索引(id)，第二列是文章正文在“字”级别上的表示，即字符相隔正文(arti...

【南卡樱桃|读书笔记《学习高手》】

weixin_44698581的博客

04-21

1万+

∝学霸分享 6大课通过英语、写作和SMART原则、OKR工作法、LEO解读五步法等文章。同样适用于国内教育环境。 ∝3 学霸分享，直通世界名校的超级学习法 ∞第18课 LEO手把手教你如何学好英语 ◆第1小课单词 ◆第2小课语法 ◆第3小课听力 ◆第4小课阅读 ◆第5小课口语 LEO的学习仪式感我在不同英语学习阶段使用的教材 ∞第19课三要素写作法，把文章写到读者心里去 ◆第1小课 Ethos，可信 ◆第2小课 Pathos，情感 ◆第3小课 Logos，逻辑 ◆19-本课核心方法回顾 ∞第

数据竞赛 - 达观杯(study)

Jorah的博客

03-01

425

下载数据，读取数据，观察数据将训练集拆分为训练集和验证集。要求：数据3-7分，随机种子2019 数据包含2个csv文件： train_set.csv：此数据集用于训练模型，每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列：第一列是文章的索引(id)，第二列是文章正文在“字”级别上的表示，即字符相隔正文(article)；第三列是在“词”级别上的表示，即词语相隔正文...

达观杯数据竞赛（五）

qq_41698853的博客

04-13

264

思路：LightGBM，LightGBM的起源，Histogram VS pre-sorted，leaf-wise VS level-wise，特征并行和数据并行，顺序访问梯度，支持类别特征，应用场景，sklearn参数，CatBoost(了解)。 1，算法简介： LightGBM是个快速的，分布式的，高性能的基于决策树算法的梯度提升框架。可用于排序，分类，回归以及很多其他的机器学习任务中。在竞...

【达观杯】数据竞赛学习篇（三）

Loewi的博客

04-09

204

Convert the text into numerical feature vectors. – Word Embedding(Word2Vec) The word2vec algorithms include skip-gram and CBOW models, using either hierarchical softmax or negative sampling: Tomas Mik...

cpp-2018年达观杯文本智能处理挑战赛长文本分类rank4

08-16

2018年"达观杯"文本智能处理挑战赛-长文本分类-rank4

达观杯_比赛简介

Datawhale

09-11

2379

比赛内容此次比赛，达观数据提供了一批长文本数据和分类信息，希望选手动用自己的智慧，结合当下最先进的NLP和人工智能技术，深入分析文本内在结构和语义信息，构建文本分类模型，实现精准分类。评分规则评分算法 binary-classification 评分标准采用各个品类F1指标的算术平均值，它是Precision 和 Recall 的调和平均数。其中，Pi是表示第i个种类对...

达观数据比赛第一天任务

不想写代码的程序猿

04-05

389

li首先很高兴可以报名参加Datawhale第六期达观你nlp数据分析学习。第一次接触到和nlp有关的数据分析任务，还是很激动的 :) 鉴于清明节假期ing，学习时间有所减少，简单得用CSDN来记录本次学习任务，并完成打卡吧～【任务1 -数据初识】时长：1天下载数据，读取数据，观察数据将训练集拆分为训练集和验证集分享自己对数据以及赛题的理解和发现首先我从百度云盘上下...

达观数据比赛第四天任务

不想写代码的程序猿

04-10

685

在学习完nlp预处理TF-IDF和Word2Vec之后，终于要进入模型的学习和使用啦。【任务3.1】LR+SVM 时常:2天使用下面模型对数据进行分类（包括：模型构建&调参&性能评估），并截图F1评分的结果。 1）逻辑回归(LR)模型，学习理论并用Task2的特征实践 2）支持向量机(SVM) 模型，学习理论并用Task2的特征实践首先我们来了解一下逻辑回...

达观杯竞赛（六）

qq_41698853的博客

04-16

172

1，网络搜索： stacking 就是当用初始训练数据学习出若干个基学习器后，将这几个学习器的预测结果作为新的训练集，来学习一个新的学习器。在机器学习中，我们说的调参里的参数指的是超参数，即对于模型的整体规划具有重要意义的指标：例如支持向量机中的乘法因子C（用于权衡经验风险和模型复杂度），当支持向量机核函数是为径向基RBF核函数，对应的钟型函数的宽度gamma就是核函数对应的超参数。只有当这...

【达观杯】数据竞赛学习篇（六）模型调优

Loewi的博客

04-15

220

1）进一步通过网格搜索法对3个模型进行调优（用5000条数据，调参时采用五折交叉验证的方式），并进行模型评估，展示代码的运行结果。(可以尝试使用其他模型) 2）模型融合，模型融合方式任意，并结合之前的任务给出你的最优结果。例如Stacking融合，用你目前评分最高的模型作为基准模型，和其他模型进行stacking融合，得到最终模型及评分结果。结果展示如下表：模型最优参数 F1评分...

达观数据比赛第二天任务

不想写代码的程序猿

04-07

252

完成了对达观数据的初次尝试之后，现在开始要正儿八经地开始搞一搞nlp的东西了。清明节假期第三天ing，也该收收心了，简单得用CSDN来记录本次学习任务，并完成打卡吧～【任务2.1】时常:2天 1.学习TF-IDF理论并实践，使用TF-IDF表示文本。今天我们来学习一个在nlp领域里重要的概念，这个概念自己在之前硕士阶段数据挖掘以及大数据分析课程中，也是已经有过一定的了解。今天...

达观数据比赛第三天任务

不想写代码的程序猿

04-09

534

清明节结束，恢复上班日常啦。【任务2.2】时长: 2天学习word2vec词向量原理并实践，用来表示文本。我们可以把word2vec模型简单化地看成是神经网络。如下图所示, 输入是一个one-hot向量，通过中间层(不含激活函数),输出层和输入层纬度一样 Word2Vec一般分为CBOW(Continuous Bag-of-Words )与Skip-Gram两种模型。...

达观文本竞赛系列(三）

qq_41698853的博客

04-10

205

1，word2vec词向量原理： word2vec是google在2013年推出的一个NLP工具，它的特点是将所有的词向量化，这样词与词之间就可以定量的去度量他们之间的关系，挖掘词之间的联系。虽然源码是开源的，但是谷歌的代码库国内无法访问，因此本文的讲解word2vec原理以Github上的word2vec代码为准。本文关注于word2vec的基础知识。用词向量来表示词并不是word2vec的首...

达观杯文本数据集 - 探索与实践

根据提供的信息，我们可以确定“001-数据集”是一个特定的数据集文件，用于参加“达观杯文本数据”竞赛。这个标题和描述表明该数据集与文本分析、机器学习或自然语言处理（NLP）等相关领域紧密相关。我们还可以推断...