python数据分析常用方法总结（持续更新）

最新推荐文章于 2024-05-12 10:00:00 发布

苍狗白云一瞬间

最新推荐文章于 2024-05-12 10:00:00 发布

阅读量1k

点赞数

分类专栏：数据分析 python 文章标签： python 数据分析常用方法

python 同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

raw_data=pd.read_table("E:/data/book/python_book/chapter6/products_sales.txt",delimiter=",")

1.查看数据样例，raw_data.tail(2)) 或者 head

2.查看数据概况 print(raw_data.describe().round(1).T) T 应该是转换行列的方法

count 统计有值的数量可以看到那些列存在空值

mean 求列均值

std 标准差

min 最小值

25%

50%

75% 猜想应该和四分位数相关（后续确定）

max 最大值

.异常值域分布，查看分类变量的值域分布

col_names=["limit_infor","campaign_type","campaign_level","product_level"]

for col_name in col_names:

unque_value=np.sort(raw_data[col_name].unique())#获取列的唯一值

print('{:*^50}'.format('{1} unique values:{0}').format(unque_value,col_name))

3.缺失值审查

#缺失值审查

na_cols=raw_data.isnull().any(axis=0) #查看每一列是否有缺失值

print('{:*^60}'.format('NA Cols::'))

print(na_cols)#打印缺失值

na_lines=raw_data.isnull().any(axis=1) #查看每一列是否有缺失值

print('total number of NA lines is :{0}'.format(na_lines.sum()))

要点：

isnull()

any(axis=0) #查看每一列是否有缺失值

any(axis=1) #查看每一列是否有缺失值

sum() 对象求和 true 为1 false为0 参与计算

4.变量的共线性检查

print('{:*^60}'.format('Correlation Analyze:'))

short_name=['li','ct','cl','pl','ra','er','price','dr','hr','cf','orders']

long_name=raw_data.columns

print(long_name)

name_dict=dict(zip(long_name,short_name))

print(raw_data.corr().round(2).rename(index=name_dict,columns=name_dict))

print(name_dict)

核心方法 raw_data.corr() 相关性分析

https://blog.csdn.net/lll1528238733/article/details/75114360

发现er和ra 相关性较强后续需要做处理（使用特定算法或者降维）

苍狗白云一瞬间

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
python数据分析常用方法总结（持续更新）

raw_data=pd.read_table("E:/data/book/python_book/chapter6/products_sales.txt",delimiter=",")1.查看数据样例，raw_data.tail(2)) 或者 head2.查看数据概况 print(raw_data.describe().round(1).T) T 应该是转换行列的方法count...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。