数据分析（6）-挖掘建模

最新推荐文章于 2023-06-24 04:22:15 发布

lfhyon

最新推荐文章于 2023-06-24 04:22:15 发布

阅读量1.3k

点赞数 1

分类专栏：数据分析与挖掘

数据分析与挖掘专栏收录该内容

9 篇文章 0 订阅

订阅专栏

分类与预测

1常见的分类与预测算法

（1）回归分析

逻辑回归模型：

逻辑回归模型建模步骤：

逻辑回归代码：

#如下可运用于根据特征来判断违约情况等
import pandas as pd
#提取数据
filename= './data/bankloan.xls'
data=pd.read_excel(filename)
x=data.iloc[:,:8].as_matrix()
y=data.iloc[:,8].as_matrix()

#建模
from sklearn.linear_model import LogisticRegression as LR
from sklearn.linear_model import RandomizedLogisticRegression as RLR 

rlr=RLR()#建立随机逻辑回归模型，筛选变量
rlr.fit(x,y)
rlr.get_support()#获取特征筛选结果,为索引值
print(u'通过随机逻辑回归模型，筛选结束')
print(u'有效特征为：%s'%','.join(data.columns[rlr.get_support()]))
x=data[data.columns[rlr.get_support()]].as_matrix()

lr=LR()#建立逻辑回归模型
lr.fit(x,y)#训练模型
print(u'逻辑回归模型训练结束。')
print(u'逻辑回归模型平均正确率：%s' % lr.score(x,y))

(2)决策树

这里主要介绍用于离散分类的ID3算法：

信息增益值越大，不确定性越小，相应特征属于最佳特征值

决策树算法预测销量高低：

import pandas as pd

inputfile = './data/sales_data.xls'
data=pd.read_excel(inputfile)
#数据是类别签，要转化为离散数据
#用1表示‘好’，‘是’，‘高’；，用-1来表示相反的属性值
data[data.values==u'好']=1
data[data.values==u'是']=1
data[data.values==u'高']=1
data[data.values != 1] = -1
x=data.iloc[:,1:4].as_matrix().astype(int)
y=data.iloc[:,4].as_matrix().astype(int)

from sklearn.tree import DecisionTreeClassifier as DTC
dtc=DTC(criterion='entropy')#建立决策树
dtc.fit(x,y)#训练模型
#可视化数目
from sklearn.tree import export_graphviz
x = pd.DataFrame(x)
import pydotplus
from IPython.display import Image
#利用Graphviz进行可视化
x = pd.DataFrame(x,columns=data.columns[1:4])
dot_tree = export_graphviz(dtc, feature_names = x.columns, out_file = None,filled=True, rounded=True,special_characters=True)
graph=pydotplus.graph_from_dot_data(dot_tree)
img=Image(graph.create_png())
graph.write_png('out.png')
#建立好tree.dot后，需要在Graphviz中将其转化为img

（3）神经网络

决策树算法预测销量高低：

import pandas as pd 
#参数初始化
inputfile = './data/sales_data.xls'
data = pd.read_excel(inputfile,index_col=u'序号')#导入数据
#数据是类别标签，要将其转换为数据
#用1来表示‘好’‘是’‘高’这三个属性，用0来表示反义的
data[data==u'好']=1
data[data==u'是']=1
data[data==u'高']=1
data[data!=1]=0
x=data.iloc[:,:3].as_matrix().astype(int)
y=data.iloc[:,3].as_matrix().astype(int)

from keras.models import Sequential
from keras.layers import Dense

model=Sequential()#建模
model.add(Dense(units=10,activation='relu',input_dim=3))
model.add(Dense(units=1,activation='sigmoid'))#由于是0-1输出，用sigmoid函数作为激活函数
model.compile(loss='binary_crossentropy',optimizer='adam')
#编译模型，损失函数与优选算法的定义

#模型训练
model.fit(x,y,epochs=1000,batch_size=10)#训练模型，学习1000次，分为10组
yp=model.predict_classes(x,batch_size=5).reshape(len(y))#分类预测

from cm_plot import *
cm_plot(y,yp).show()

(4)分类与测试评价

-绝对误差与相对误差

-平均绝对误差

-均方误差

加入了平方，则避免了正负误差不能相加的情况

-均方根误差

代表了预测值的离散度，也称为标准误差

-平均绝对百分误差

-Kappa统计

-识别准确度

-识别精确率

-反馈率

-ROC曲线

-混淆矩阵

识别数据集D包括T0个样本，每类模型分别包含Ti个数据（i=1,....,N）,采取某种识别算法构造分类器C,cmij表示i类模式被判断为j类模式的数据占i类模式样本总数的百分比

lfhyon

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
数据分析（6）-挖掘建模

分类与预测1常见的分类与预测算法（1）回归分析逻辑回归模型：逻辑回归模型建模步骤：逻辑回归代码：#如下可运用于根据特征来判断违约情况等import pandas as pd#提取数据filename= './data/bankloan.xls'data=pd.read_excel(filename)x=data.iloc[:,:8].as_matrix()y=data.iloc[:,8...
复制链接

扫一扫