积累知识点(Numpy, pandas, seaborn, matplotlib)

最新推荐文章于 2024-03-28 13:12:51 发布

ZO_ON

最新推荐文章于 2024-03-28 13:12:51 发布

阅读量359

点赞数

分类专栏： pandas 文章标签： python

本文链接：https://blog.csdn.net/ZOIIIIION/article/details/120549617

版权

这篇博客介绍了如何利用Python中的Numpy, Pandas, Seaborn和Matplotlib进行数据处理，并强调了在处理大型数据集时，通过引入numexpr和bottleneck库可以显著提升Pandas的二进制数值和布尔操作的性能，特别是对于包含nans值的数组，加速效果尤为明显。" 128001279,10925334,Redis String详解：类型、操作与面试技巧,"['数据库', 'redis', 'java']

摘要由CSDN通过智能技术生成

导包:

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# 去除警告

import warnings
warnings.filterwarnings("ignore")

#加速操作

借助 numexpr 与 bottleneck 支持库，Pandas 可以加速特定类型的二进制数值与布尔操作。

处理大型数据集时，这两个支持库特别有用，加速效果也非常明显。 numexpr 使用智能分块、缓存与多核技术。bottleneck 是一组专属 cython 例程，处理含 nans 值的数组时，特别快。

_________________________________________________________________________________________
增adding
_________________________________________________________________________________________


#保存数据(写入数据)
obj.to_csv('new_name.csv')

#新增列
df['文本长度'] = df['文本'].apply(lambda x: len(str(x)))

_______________________
增改Increase and change
_______________________

#分列
df['新列赋名'] = df['列表要提取的列名'].str.split(" ").str[1]
#split()里添加分割的位置;    .str[]里写要提取的index;
df['新列赋名'] = df['列表要提取的列名']apply(lambda x:x.split(' ')[0])

_________________________________________________________________________________________
删remove
_________________________________________________________________________________________

# 删除行列
df.drop(index='行名', columns='列名')
df.drop(labels='行|列'， axis=?)
df.drop(index='行名', level=1)
df.drop(columns='列名')

#删除空值
dropna()
||
\/
-----------------------------------------------------
DataFrame.dropna( axis=0, how=‘any’, thresh=None, subset=None, inplace=False)
||
\/
## how

how='all’或者how=‘any’。
how='all’删除全是缺失值的行（列）
how='any’删除只要含有缺失值的行（列）(默认)

## thresh

thresh=n表示保留至少含有n个非NaN数值的行

##subset
subset定义要在哪些列中查找缺失值

## inplace

inplace=True #数据原地改变
inplace=False #会创建一个新的数据框, 默认为False
-----------------------------------------------------

#唯一值
nunique()

__________
删改Delete
__________

# 数据去重
duplicated()
df.drop_dup