使用Python的pandas开源库测试对比文件性能和记录知识

最新推荐文章于 2024-04-22 19:40:54 发布

欧阳田

最新推荐文章于 2024-04-22 19:40:54 发布

阅读量297

点赞数

分类专栏： Python 文章标签： Python Pandas Pandas测试 DataFrame测试

本文链接：https://blog.csdn.net/outsanding/article/details/88770800

版权

1 篇文章 0 订阅

订阅专栏

UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xbe in position 0: invalid start byte
csv文件默认是gbk的编码格式，而pandas默认是utf-8编码格式。两种解决方案，把源文件修改为utf-8的编码格式，或者pandas在读的时候采用enconding=‘gbk’

核心逻辑是，对比连续两天的数据包文件的差异，找出新增的和更新的。上面表格中总条数其实是上一天的。根据增量和更新量可以推断出下一天的数据量。
在运行过程中内存高峰占用到14G多，我电脑是4c,i5,win10，20G内存。因为Python跟Java一样也有垃圾收集器，内存的释放还是很及时的，没有撑爆内存。但是，电脑还是非常卡，卡到跟本点不开其他任何应用，这样的代码真的可以在生产环境上跑吗？这样有意义吗？//TODO Python和Java他们在内存占用方面是怎么处理的？

代码：df_merge= df1.merge(df2, on=0, copy=False)
对代码的中copy=False的理解。
如何理解copy=False的这个特殊情况？有信息说，在某些特殊情况下，不要复制，默认是复制的。
Python也是面向对象的一门语言，它也有垃圾收集器。也有对象的创建。有了对象一定有对象的序列化和反序列化的情况。也有对象的浅拷贝和深拷贝。就可以理解操作符 = copy() copy(deep==False)
在pandas中不支持深拷贝的。
代码证明pandas不支持深拷贝。
arr1 = [1, 2, 3]
arr2 = [1, 2, 3, 4]
df1 = pd.DataFrame([[arr1], [arr2]], columns=[‘A’])
print(df1.applymap(id))

df2 = df1.copy(deep=True)
print(df2.applymap(id))

df2.loc[0, ‘A’].append(5)
print(df2)
print(df1)
结果
A
0 2751069368072
1 2751069186376
A
0 2751069368072
1 2751069186376
A
0 [1, 2, 3, 5]
1 [1, 2, 3, 4]
A
0 [1, 2, 3, 5]
1 [1, 2, 3, 4]
A
0 2609084320904
1 2609084135112
A
0 2609084320904
1 2609084135112
描述：0和1是索引，A是列名。一串数字是对象Id,会发现Id没有变，也就是数字没有变化，所以证明它不支持深拷贝的。

DataFrame来自Pandas。Series描述的是一行数据，它可以构建成DataFrame的模式。而任何一个DataFrame都可以进行转置。转置的意思就是顺时针旋转90度。

Numerical Python，提供了Python对多维数组对象的支持:ndarray。具有矢量运算能力，快速，节省空间。Numpy支持高级大量的维度数组于矩阵运算，此外也针对数组运算提供大量的数据函数库。构建一些数组，比如一维数组，二维数组。然后对数组本身进行一些操作，和了解它的一些属性，重写它的属性操作。也可以进行这些数组间运算操作。

结论就是：DataFrame， Series, numpy，都可以构建一种矩阵。然后对矩阵中的属性进行一些操作。和对里面的值进行一些操作。究竟可以在哪些场景下使用，需要具体的问题分析，然后可能联想到Python的这三个库进行操作。去对比文件里面的内容也好，去统计里面内容的信息也好，都是场景的应用，因为它是作数据分析的。

关注

专栏目录