python学习笔记（2020.09.29--pandas)

最新推荐文章于 2023-08-29 20:59:03 发布

6116yy

最新推荐文章于 2023-08-29 20:59:03 发布

阅读量240

点赞数 1

分类专栏： python+pytorch 文章标签： python

本文链接：https://blog.csdn.net/Y2398Y/article/details/108870550

版权

python+pytorch 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

这篇笔记介绍了在处理数据时使用pandas的经验，包括如何创建测试集和训练集。作者首先阐述了学习pandas的背景，即处理样本不均衡的数据集。接着详细说明了如何打开CSV文件，查看数据行数，筛选并保存数据作为测试集。在制作训练集的过程中，提到了当前采用的简单采样方法，并计划后续研究更高级的采样策略，如SMOTE算法。最后，讨论了DataFrame的融合操作，比较了`pd.merge()`和`pd.concat()`的区别。

摘要由CSDN通过智能技术生成

最近在处理数据的时候了解了一个超好用的工具集pandas，这篇笔记是对在pandas中用到的内容进行记录，防止遗忘。

1.学习背景

已有的分类数据集存在样本不均衡的情况，对数据集进行处理。

2.做测试集

打开.csv文件

filename_list = pd.read_csv('path', header=None)[0]

注：这里的路径要写到要打开的文件名。

看该文件中数据的行数

print(len(filename_list))

提取数据做成DataFrame形式，为后续筛选做准备

labels = []
for i in tqdm(filename_list):
    t = re.findall(r"\d+\.?\d*", i)
    labels.append(t)

temp = np.array(labels)
df = pd.DataFrame(temp, columns=["A", "B", "C", "D"])

筛选符合条件的数据

df_sub1 = filename_list[df['A'] == '1']

将符合条件的数据写入文件

# 1. 创建文件对象
f = open('test.csv', 'w', encoding='utf-8', newline='')
# 2. 基于文件对象构建 csv写入对象
csv_writer = csv.writer(f)
# 4. 写入csv文件内容
for j in df_sub1.values:
    csv_writer.writerow([j])
# 5. 关闭文件
f.close()

3.做训练集

注：
1. 这1步用的方法比较笨，没有找到两个.csv文件相减的方法，后面如果有时间需要做一做。（这里是逐渐挑选判断+两个DataFrame融合的方法）
2. 采样目前用的是随机抽取，简单粗暴的让每个类别基础数据相等的方法。后面有时间可以学习下SMOTE算法（在数据没有这么多的情况下，增加数量少的那一种样本）+基于DataFrame数据集分割的欠采样（用不同的数据训练多次，最终取参数的平均值）。

采样

pdtys2 = pdty2.sample(n=40000)

融合（合并）

df_subtest = pd.merge(df_sub5, df_sub10, how="outer")
train1 = pd.concat([df_sub1,df_sub2,df_sub3, ], axis=0)

注：1.pd.merge（）2.pd.concat（）对象数量和结果有区别，建议两个进行融合选择merge。

**本文摘取部分代码做笔记

感觉脑袋用久了也会热 #_#

6116yy

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录