python笔记27:数据分析之交叉分析

aiyo92

于 2019-02-11 17:08:06 发布

阅读量2.4k

点赞数 1

分类专栏： python 文章标签： python 交叉分析数据透视表 pivot_table

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/aiyo92/article/details/87007143

版权

python 专栏收录该内容

43 篇文章 5 订阅

订阅专栏

# -*- coding: utf-8 -*-
#1、概念：交叉分析，通常用于分析两个或两个以上，分组变量之间的关系，以交叉表形式进行变量间关系的对比分析；
#可以有三种情况下的交叉：定量与定量分组进行交叉；定量与定性分组进行交叉；定性与定性分组进行交叉
#建议交叉的维度为两个维度即可，维度越多，越细，就越难发现规律

#2、交叉计数函数：
#pivot_table(values,index,columns,aggfunc,fill_value)
#参数说明：
#values:数据透视表(pivot_table返回的表)中的值
#index:数据透视表中的行（行分组的列数组，也就是数据透视表中的行）
#columns:数据透视表中的列（列分组的列数组，也就是数据透视表中的列）
#aggfunc:统计函数(也就是数据表中对统计列（values指定的列）的统计函数，常用的统计函数就是之前学的计数、求和等)
#fill_value:NA值的统一替换

#更详细的讲解可参考：http://python.jobbole.com/81212/

import numpy
import pandas

data = pandas.read_csv("D:/workspaces/python/pythonStudy/27.csv")

#27.csv包括列：用户ID,注册日期,身份证号码,性别,出生日期,年龄。下载地址：https://pan.baidu.com/s/1x38c4wFe-qRSn9yLC93iHQ

bins = [min(data.年龄)-1,20,30,40,max(data.年龄)+1]

labels = ['20岁以及以下','21岁到30岁','31岁到40岁','41岁以上']

data['年龄分层'] = pandas.cut(data.年龄,bins,labels=labels)

ptResult = data.pivot_table(
values=['年龄'],
index=['年龄分层'],
columns=['性别'],
aggfunc=[numpy.size]
)

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。