[Python数据挖掘]第3章、数据探索

1、缺失值处理:删除、插补、不处理

2、离群点分析:简单统计量分析、3σ原则(数据服从正态分布)、箱型图(最好用)

离群点(异常值)定义为小于QL-1.5IQR或大于Qu+1.5IQR

import pandas as pd

catering_sale = '../data/catering_sale.xls' #餐饮数据
data = pd.read_excel(catering_sale, index_col = u'日期') #读取数据,指定“日期”列为索引列

import matplotlib.pyplot as plt #导入图像库
#plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签
#plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号

plt.figure() #建立图像
p = data.boxplot(return_type='dict') #画箱线图,直接使用DataFrame的方法
x = p['fliers'][0].get_xdata() # 'fliers'即为异常值的标签
y = p['fliers'][0].get_ydata()
y.sort() #从小到大排序,该方法直接改变原对象

#用annotate添加注释
#其中有些相近的点,注解会出现重叠,难以看清,需要一些技巧来控制。
#以下参数都是经过调试的,需要具体问题具体调试。
for i in range(len(x)): 
  if i>0:
    plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.05 -0.8/(y[i]-y[i-1]),y[i]))
  else:
    plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.08,y[i]))

plt.show() #展示箱线图

                   

3、贡献度分析(帕累托分析,20/80定律)

import pandas as pd
import matplotlib.pyplot as plt #导入图像库

dish_profit = 'data/catering_dish_profit.xls' #餐饮菜品盈利数据
data = pd.read_excel(dish_profit, index_col = u'菜品名')
data = data[u'盈利'].copy()
data.sort_values(ascending = False)

plt.figure()
data.plot(kind='bar')
plt.ylabel(u'盈利(元)')
p = 1.0*data.cumsum()/data.sum()
p.plot(color = 'r', secondary_y = True, style = '-o',linewidth = 2)
plt.annotate(format(p[6], '.4%'), xy = (6, p[6]), xytext=(6*0.9, p[6]*0.9), arrowprops=dict(arrowstyle="->", connectionstyle="arc3,rad=.2")) #添加注释,即85%处的标记。这里包括了指定箭头样式。
plt.ylabel(u'盈利(比例)')
plt.show()

4、相关性分析(以餐饮数据为例)

导入数据

求相关系数的三种方式

5、统计作图函数

 

 

 

 

 

 

 

转载于:https://www.cnblogs.com/little-monkey/p/10035437.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python数据分析与挖掘实战(第2版)》是一本关于Python数据挖掘的教材。它包括基础篇和实战篇两个部分。基础篇主要介绍数据挖掘的概述、基本流程、常用工具、开发环境以及Python数据挖掘的编程基础、数据探索数据预处理、数据挖掘算法基础等内容。实战篇则包括了8个具体案例,涉及财政收入影响因素分析及预测、航空公司客户价值分析、商品零售购物篮分析、基于水色图像的水质评价、家用热水器用户行为分析与事件识别、电子商务网站用户行为分析及服务推荐、电商产品评论数据情感分析以及基于开源平台实现的航空公司客户价值分析等。 该教材的特色有三: 1. 本书符合大数据应用开发(Python)“1X”职业技能证书要求,并充分融入了“泰迪杯”数据分析技能赛技术标准要求,实现了“课证融通”。 2. 本书从实践出发,以大量数据挖掘工程案例为主线,深入浅出地介绍了数据挖掘建模过程中的相关任务。 3. 本书是一种新形态的教材,采用“以纸质教材为核心、以互联网为载体”的方式,配备了数字资源,打造了“一书、一课、一空间”混合式教学新生态,体现了先进职业教育理念。 该教材的配套数字资源包括正文数据和代码、PPT课件、教学大纲、教学进度表、教案等。 以下是教材的目录: 第1 数据挖掘基础 第2 Python数据分析简介 第3 数据探索 第4 数据预处理 第5 挖掘建模 第6 财政收入影响因素分析及预测 第7 航空公司客户价值分析 第8 商品零售购物篮分析 第9 基于水色图像的水质评价 第10 家用热水器用户行为分析与事件识别 第11 电子商务网站用户行为分析及服务推荐 第12 电商产品评论数据情感分析 第13 基于Python引擎的开源数据挖掘建模平台(TipDM)

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值