数据处理(代码类)

最新推荐文章于 2023-09-21 11:19:16 发布

Durio

最新推荐文章于 2023-09-21 11:19:16 发布

阅读量1.2k

点赞数 1

分类专栏： python数据分析与挖掘实战文章标签： python 代码数据挖掘

python数据分析与挖掘实战专栏收录该内容

2 篇文章 0 订阅

订阅专栏

数据探索

1.异常值分析(描述性数据分析,箱线图)

描述性数据可以帮助判断数据的分布结合业务来判断数据情况,箱线图可以找出异常值

import pandas as pd

catering_sale ='../data/catering_sale.xls' #餐饮数据
data = pd.read_excel(catering_sale, index_col = '日期') #读取数据，指定“日期”列为索引列
data.describe() #通过描述性数据查看数据的基本情况


import matplotlib.pyplot as plt #导入图像库
#plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签
#plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号

plt.figure() #建立图像
p = data.boxplot(return_type='dict') #画箱线图，直接使用DataFrame的方法
x = p['fliers'][0].get_xdata() # 'flies'即为异常值的标签
y = p['fliers'][0].get_ydata()
y.sort() #从小到大排序，该方法直接改变原对象

#用annotate添加注释
#其中有些相近的点，注解会出现重叠，难以看清，需要一些技巧来控制。
#以下参数都是经过调试的，需要具体问题具体调试。
for i in range(len(x)): 
  if i>0:
    plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.05 -0.8/(y[i]-y[i-1]),y[i]))
  else:
    plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.08,y[i]))

plt.show() #展示箱线图

2.对数据进行描述性分析,返回缺失值个数以及最大最小值

(通过数据的描述性处理,进一步了解数据的分布,从而结合业务情况,得出最优的数据)

#-*- coding: utf-8 -*- 
#对数据进行基本的探索
#返回缺失值个数以及最大最小值
 
import pandas as pd
 
datafile='../data/air_data.csv' #航空原始数据,第一行为属性标签
resultfile ='../tmp/explore.xls' #数据探索结果表
 
data = pd.read_csv(datafile, encoding = 'utf-8') #读取原始数据，指定UTF-8编码（需要用文本编辑器将数据装换为UTF-8编码）
 
explore = data.describe(percentiles = [], include = 'all').T 
 
#包括对数据的基本描述，percentiles参数是指定计算多少的分位数表（如1/4分位数、中位数等）；T是转置，转置后更方便查阅
explore['null'] = len(data)-explore['count'] #describe()函数自动计算非空值数，需要手动计算空值数
 
explore = explore[['null', 'max', 'min']]
explore.columns = [u'空值数', u'最大值', u'最小值'] #表头重命名
'''这里只选取部分探索结果。
describe()函数自动计算的字段有count（非空值数）、unique（唯一值数）、top（频数最高者）、freq（最高频数）、mean（平均值）、std（方差）、min（最小值）、50%（中位数）、max（最大值）'''
 
explore.to_excel(resultfile) #导出结果

3.统计量分析

#-*- coding: utf-8 -*-
#餐饮销量数据统计量分析
from __future__ import print_function
import pandas as pd

catering_sale = '../data/catering_sale.xls' #餐饮数据
data = pd.read_excel(catering_sale, index_col = u'日期') #读取数据，指定“日期”列为索引列


data = data[(data[u'销量'] > 400)&(data[u'销量'] < 5000)] #过滤异常数据
statistics = data.describe() #保存基本统计量

statistics.loc['range'] = statistics.loc['max']-statistics.loc['min'] #极差
statistics.loc['var'] = statistics.loc['std']/statistics.loc['mean'] #变异系数
statistics.loc['dis'] = statistics.loc['75%']-statistics.loc['25%'] #四分位数间距

print (statistics)

4.贡献度分析(帕累托图)

同样的投入放入不同的地方会产生不同的效应

#-*- coding: utf-8 -*-
#菜品盈利数据 帕累托图
from __future__ import print_function
import pandas as pd

#初始化参数
dish_profit = '../data/catering_dish_profit.xls' #餐饮菜品盈利数据
data = pd.read_excel(dish_profit, index_col = u'菜品名')
data = data[u'盈利'].copy()

data.sort_values(ascending=False)
#sorted(data,reverse=True)  #或用这句话

import matplotlib.pyplot as plt #导入图像库
#plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签
#plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号

plt.figure()#创建图像区域,指点比例
data.plot(kind='bar')
plt.ylabel(u'盈利（元）')
p = 1.0*data.cumsum()/data.sum()
p.plot(color = 'r', secondary_y = True, style = '-o',linewidth = 2)
plt.annotate(format(p[6], '.4%'), xy = (6, p[6]), xytext=(6*0.9, p[6]*0.9), arrowprops=dict(arrowstyle="->", connectionstyle="arc3,rad=.2")) #添加注释，即85%处的标记。这里包括了指定箭头样式。
plt.ylabel('盈利（比例）')
plt.show()

5.相关系数分析

#-*- coding: utf-8 -*-
#餐饮销量数据相关性分析
from __future__ import print_function
import pandas as pd

catering_sale = '../data/catering_sale_all.xls' #餐饮数据，含有其他属性
data = pd.read_excel(catering_sale, index_col = u'日期') #读取数据，指定“日期”列为索引列

data.corr() #相关系数矩阵，即给出了任意两款菜式之间的相关系数
#data.corr(method='pearson') 支持pearson(默认选项)
#在正态分布假定下,spearman和pearson效率等价.连续测量数据更适合pearson
#S1.corr(S2,method='pearson') S1,S2均为Series 指定计算两个Series之间的相关系数

data.corr()[u'百合酱蒸凤爪'] #只显示“百合酱蒸凤爪”与其他菜式的相关系数
data[u'百合酱蒸凤爪'].corr(data[u'翡翠蒸香茜饺']) #计算“百合酱蒸凤爪”与“翡翠蒸香茜饺”的相关系数
print(data.corr()[u'百合酱蒸凤爪'])
print(data.corr())
print(data[u'百合酱蒸凤爪'].corr(data[u'翡翠蒸香茜饺']))

数据预处理

1.数据缺失处理,补数(拉格朗日插值)

(主要运用于一些因为不正确操作而缺失的有效数据.)

#-*- coding: utf-8 -*-
#拉格朗日插值代码
import pandas as pd #导入数据分析库Pandas
from scipy.interpolate import lagrange #导入拉格朗日插值函数
 
inputfile ='../data/missing_data.xls' #输入数据路径,需要使用Excel格式；
outputfile='../tmp/missing_data_processed.xls' #输出数据路径,需要使用Excel格式
 
data = pd.read_excel(inputfile, header=None) #读入数据
#header = n,表明数据中是否存在列名，如果在第0行，则为0，如果没有，则为None。default= 0；
#df = pd.read_excel(filefullpath, sheetname=[0,2],skiprows=[0])
#sheetname指定为读取几个sheet，sheet数目从0开始
#如果sheetname=[0,2]，那代表读取第0页和第2页的sheet
#skiprows=[0]代表读取跳过的行数第0行，不写代表不跳过标题
#index_col : int or sequence or False, default None
#用作行索引的列编号或者列名，如果给定一个序列则有多个行索引。
#如果文件不规则，行尾有分隔符，则可以设定index_col=False 来是的pandas不适用第一列作为行索引。
 
#自定义列向量插值函数
#s为列向量，n为被插值的位置，k为取前后的数据个数，默认为5
def ployinterp_column(s, n, k=5):
  y = s[list(range(n-k, n)) + list(range(n+1, n+1+k))] #取数
  y = y[y.notnull()] #剔除空值
  return lagrange(y.index, list(y))(n) #插值并返回插值结果
 
#逐个元素判断是否需要插值
for i in data.columns:
  for j in range(len(data)):
    if (data[i].isnull())[j]: #如果为空即插值。
      data[i][j] = ployinterp_column(data[i], j)
 
data.to_excel(outputfile, header=None, index=False) #输出结果

2.数据清洗，过滤掉不符合规则的数据

(根据业务分析,删除一些不合理的数据)

#-*- coding: utf-8 -*-
#数据清洗，过滤掉不符合规则的数据
 
import pandas as pd
 
datafile= '../data/air_data.csv' #航空原始数据,第一行为属性标签
cleanedfile = '../tmp/data_cleaned.csv' #数据清洗后保存的文件
 
data = pd.read_csv(datafile,encoding='utf-8') #读取原始数据，指定UTF-8编码（需要用文本编辑器将数据装换为UTF-8编码）
 
data = data[data['SUM_YR_1'].notnull()*data['SUM_YR_2'].notnull()] #票价非空值才保留
 
#只保留票价非零的，或者平均折扣率与总飞行公里数同时为0的记录。
index1 = data['SUM_YR_1'] != 0
index2 = data['SUM_YR_2'] != 0
index3 = (data['SEG_KM_SUM'] == 0) & (data['avg_discount'] == 0) #该规则是“与”
data = data[index1 | index2 | index3] #该规则是“或”
 
data.to_excel(cleanedfile) #导出结果

3.训练集,测试集的数据划分(主要是是使用与分类模型)

#-*- coding: utf-8 -*-
#构建并测试CART决策树模型
 
import pandas as pd #导入数据分析库
from random import shuffle #导入随机函数shuffle，用来打算数据
 
datafile = '../data/model.xls' #数据名
data = pd.read_excel(datafile) #读取数据，数据的前三列是特征，第四列是标签
data = data.as_matrix() #将表格转换为矩阵 [4 1 1 1]
shuffle(data) #随机打乱数据
 
 
p = 0.8 #设置训练数据比例
train = data[:int(len(data)*p),:] #前80%为训练集
test = data[int(len(data)*p):,:] #后20%为测试集

Durio

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
数据处理(代码类)

数据探索1.异常值分析(描述性数据分析,箱线图)描述性数据可以帮助判断数据的分布结合业务来判断数据情况,箱线图可以找出异常值import pandas as pdcatering_sale ='../data/catering_sale.xls' #餐饮数据data = pd.read_excel(catering_sale, index_col = '日期') #读取数据，指...
复制链接

扫一扫

专栏目录