NPL基础入门之新闻本分类数据分析Test2

最新推荐文章于 2022-08-18 12:09:00 发布

m0_46429041

最新推荐文章于 2022-08-18 12:09:00 发布

阅读量345

点赞数

文章标签： nlp

本文链接：https://blog.csdn.net/m0_46429041/article/details/107501594

版权

NPL基础入门之新闻本分类数据分析Test2数据读取数据分析标签分布（基matplitlit画图与Seabron对比）新闻内容长度分析数据读取因电脑内存限制无法一次性读取整个训练集，所以在暂时读取了50000条样本数据。data = pd.read_csv(r'C:\Users\pc\Desktop\数据挖掘\阿里天池\新闻文本分析\input\train_set.csv',sep='\t',nrows=50000)个人总结：当内存不足时可通过调整read_csv()参数调整：1、读取限定前行数

摘要由CSDN通过智能技术生成

NPL基础入门之新闻本分类数据分析Test2

数据读取
数据分析
- 标签分布（基matplitlit画图与Seabron对比）
- 新闻内容长度分析

数据读取

因电脑内存限制无法一次性读取整个训练集，所以在暂时读取了50000条样本数据。

data = pd.read_csv(r'C:\Users\pc\Desktop\数据挖掘\阿里天池\新闻文本分析\input\train_set.csv',sep='\t',nrows=50000)

个人总结：当内存不足时可通过调整read_csv()参数调整：
1、读取限定前行数：nrow = x
2、读取限定列： usecols=[‘column1’, ‘column2’, ‘column3’]
3、分块迭代读取：chunksize=1000

readers = pd.read_csv('demo.csv',nrows=10000,usecols=['column1','column2','column3'

最低0.47元/天解锁文章

m0_46429041

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
NPL基础入门之新闻本分类数据分析Test2

NPL基础入门之新闻本分类数据分析Test2数据读取数据分析标签分布（基matplitlit画图与Seabron对比）新闻内容长度分析数据读取因电脑内存限制无法一次性读取整个训练集，所以在暂时读取了50000条样本数据。data = pd.read_csv(r'C:\Users\pc\Desktop\数据挖掘\阿里天池\新闻文本分析\input\train_set.csv',sep='\t',nrows=50000)个人总结：当内存不足时可通过调整read_csv()参数调整：1、读取限定前行数
复制链接

扫一扫