Pandas数据处理笔记（草稿）

最新推荐文章于 2025-05-27 09:14:55 发布

ClFH

最新推荐文章于 2025-05-27 09:14:55 发布

阅读量708

点赞数

分类专栏：笔记文章标签：数据分析 python

本文链接：https://blog.csdn.net/Xiaobai_rabbit0/article/details/110311183

版权

这篇博客详细记录了使用Pandas进行数据处理的步骤，包括删除空列、解析时间特征、合并重复ID以及整合不同数据集。从base_info到annual_report_info，再到train_data/test_data，涵盖了多个关键操作，是Python数据分析的良好参考资料。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、base_info删除空列

base_info = pd.read_csv(PATH + 'base_info.csv')
base_info = base_info.drop(filter_col_by_nan(base_info, 0.01), axis=1)

annual_report_info = pd.read_csv(PATH + 'annual_report_info.csv')
annual_report_info = annual_report_info.drop(filter_col_by_nan(annual_report_info, 0.01), axis=1)

2、news_info

2.1、news_info

news_info = pd.read_csv(PATH + 'news_info.csv')
news_info.head()

在这里插入图片描述

2.2、news_info解析时间特征

news_info = pd.read_csv(PATH + 'news_info.csv')
news_info['public_date'] = news_info['public_date'].apply(lambda x: x if '-' in str(x) else np.nan)
news_info['public_date'] = pd.to_datetime(news_info['public_date'])   #解析时间，返回指定类型格式时间
news_info['public_date'] = (datetime.now() - news_info['public_date']).dt.days   #当前时间 - 发布时间 ——>转换成天数！！

在这里插入图片描述

2.3、以public_data为主，合并重复id—>news_info_df

#.groupby分组操作涉及拆分对象，应用功能以及合并结果的某种组合。这可用于对大量数据进行分组并在这些组上进行计算操作。
#.agg使用指定轴上的一项或多项操作进行汇总（在public_date特征下新建四个子特征）
#合并重复数据集，妙哉！！！！
news_info_df = news_info.groupby('id').agg({
   'public_date': ['count','max','min','mean']}).reset_index()

在这里插入图片描述

#直接修改列的名称，
news_info_df.columns = ['id', 'public_date_COUNT', 'public_MAX', 'public_MIN', 'public_MEAN']

在这里插入图片描述

2.4、以positive_negtive为主，合并重复id—>news_info_df2

#通过求和来汇总值,
news_info_df2 = pd.pivot_table(news_info, index='id', columns='positive_negtive', aggfunc='count').reset_index()

在这里插入图片描述

#直接修改列名称
news_info_df2.columns = ['id', 'news_COUNT1', 'news_COUNT2', 'news_COUNT3']

在这里插入图片描述

2.5、合并两个特征——>news_info_df

最低0.47元/天解锁文章