Datawhale NLP入门任务Task2 数据读取与数据分析

前一天,我们了解了赛题的内容和几种解决方案。今天根据之前的思路进行模型延展分析。讲解一些算法的原理和相关知识点,并会给出一定的参考文献供大家深入学习。

Task2 数据读取与数据分析

本章主要内容为数据读取和数据分析,具体使用Pandas库完成数据读取操作,并对赛题数据进行分析构成。

学习目标

  • 学习使用Pandas读取赛题数据
  • 分析赛题数据的分布规律

数据读取

赛题数据虽然是文本数据,每个新闻是不定长的,但任然使用csv格式进行存储。因此可以直接用Pandas完成数据读取的操作。

 

1

import pandas as pd

2

train_df = pd.read_csv('../data/train_set.csv', sep='\t', nrows=100)

这里的read_csv由三部分构成:

  • 读取的文件路径,这里需要根据改成你本地的路径,可以使用相对路径或绝对路径;

  • 分隔符sep,为每列分割的字符,设置为\t即可;

  • 读取行数nrows,为此次读取文件的函数,是数值类型(由于数据集比较大,建议先设置为100);

 

1

train_df.head()

[2]:

, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值