前一天,我们了解了赛题的内容和几种解决方案。今天根据之前的思路进行模型延展分析。讲解一些算法的原理和相关知识点,并会给出一定的参考文献供大家深入学习。
Task2 数据读取与数据分析
本章主要内容为数据读取和数据分析,具体使用Pandas
库完成数据读取操作,并对赛题数据进行分析构成。
学习目标
- 学习使用
Pandas
读取赛题数据 - 分析赛题数据的分布规律
数据读取
赛题数据虽然是文本数据,每个新闻是不定长的,但任然使用csv格式进行存储。因此可以直接用Pandas
完成数据读取的操作。
1
import pandas as pd
2
train_df = pd.read_csv('../data/train_set.csv', sep='\t', nrows=100)
这里的read_csv
由三部分构成:
-
读取的文件路径,这里需要根据改成你本地的路径,可以使用相对路径或绝对路径;
-
分隔符
sep
,为每列分割的字符,设置为\t
即可; - 读取行数
nrows
,为此次读取文件的函数,是数值类型(由于数据集比较大,建议先设置为100);
1
train_df.head()
[2]:
, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,