导包:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt# 去除警告
import warnings
warnings.filterwarnings("ignore")
#加速操作
借助 numexpr 与 bottleneck 支持库,Pandas 可以加速特定类型的二进制数值与布尔操作。
处理大型数据集时,这两个支持库特别有用,加速效果也非常明显。 numexpr 使用智能分块、缓存与多核技术。bottleneck 是一组专属 cython 例程,处理含 nans 值的数组时,特别快。
_________________________________________________________________________________________
增adding
_________________________________________________________________________________________
#保存数据(写入数据)
obj.to_csv('new_name.csv')
#新增列
df['文本长度'] = df['文本'].apply(lambda x: len(str(x)))
_______________________
增改Increase and change
_______________________
#分列
df['新列赋名'] = df['列表要提取的列名'].str.split(" ").str[1]
#split()里添加分割的位置; .str[]里写要提取的index;
df['新列赋名'] = df['列表要提取的列名']apply(lambda x:x.split(' ')[0])
_________________________________________________________________________________________
删remove
_________________________________________________________________________________________
# 删除行列
df.drop(index='行名', columns='列名')
df.drop(labels='行|列', axis=?)
df.drop(index='行名', level=1)
df.drop(columns='列名')
#删除空值
dropna()
||
\/
-----------------------------------------------------
DataFrame.dropna( axis=0, how=‘any’, thresh=None, subset=None, inplace=False)
||
\/
## how
how='all’或者how=‘any’。
how='all’删除全是缺失值的行(列)
how='any’删除只要含有缺失值的行(列)(默认)
## thresh
thresh=n表示保留至少含有n个非NaN数值的行
##subset
subset定义要在哪些列中查找缺失值
## inplace
inplace=True #数据原地改变
inplace=False #会创建一个新的数据框, 默认为False
-----------------------------------------------------
#唯一值
nunique()
__________
删改Delete
__________
# 数据去重
duplicated()
df.drop_dup