NPL基础入门之新闻本分类数据分析Test2
数据读取
因电脑内存限制无法一次性读取整个训练集,所以在暂时读取了50000条样本数据。
data = pd.read_csv(r'C:\Users\pc\Desktop\数据挖掘\阿里天池\新闻文本分析\input\train_set.csv',sep='\t',nrows=50000)
个人总结:当内存不足时可通过调整read_csv()参数调整:
1、读取限定前行数:nrow = x
2、读取限定列: usecols=[‘column1’, ‘column2’, ‘column3’]
3、分块迭代读取:chunksize=1000
readers = pd.read_csv('demo.csv',nrows=10000,usecols=['column1','column2','column3'