第二部分__建模应用篇__第七章__分类与预测

这是学习的第二个部分,第一部分中复习了or学习了一些基础知识,这里进入到第二部分的建模应用篇,还有一个好消息,数模论文被推到省赛区组委会,国奖有希望。下面正式进入学习部分。

分类与预测是机器学习有监督学习任务的代表,要求估计预测值,是“回归任务”,要去判断因变量属于哪个类别时,是“分类任务”。

1.回归分析

1.1线性回归

线性回归,使用矩条件,计量经济学中有系统的学过,需要一定的线性代数基础。

矩阵推导线性回归的参数

上面的思想必须要知道,实现的时候可以用sklearn库实现,不需要自己再写重复的轮子,下面使用代码实现:

#波士顿房价预测问题
import numpy as np 
import matplotlib.pyplot as plt
from sklearn.datasets import load_boston
from sklearn.linear_model import LinearRegression

boston=load_boston()

x=boston.data[:,np.newaxis,5]
y=boston.target
lm=LinearRegression()
lm.fit(x,y)
print(lm.score(x,y))#输出R-squre

plt.scatter(x,y,color="green")
plt.plot(x,lm.predict(x),color="blue",linewidth=3)
plt.show()

1.2逻辑回归

逻辑回归是对数几率回归,属于广义线性模型,函数图像为S型,计量经济学同样教授过,一般的因变量取值只有0或1,Logistic函数,确定权重的时候用的极大似然估计。

逻辑回归算法介绍

逻辑回归代码实现:

import pandas as pd 
from sklearn.linear_model import LogisticRegression
from sklearn.cross_validation import train_test_split
data=pd.read_csv('LogisticRegression.csv',encoding='utf-8')
#类型变量进行度热编码,分离成多个虚拟变量,划分等级
data_dums=pd.get_dummies(data,prefix='rank',columns=['rank'],drop_first=True)
x_train,x_test,y_train,y_test=train_test_split(data_dums.ix[:,1:],data_dums.ix[:,0],test_size=.1,random_state=520)
lr=LogisticRegression()
lr.fit(x_train,y_train)
lr.score(x_test,y_test)

2.决策树

import pandas as pd 
from sklearn.tree import DecisionTreeClassifier
data=pd.DataFrame()
data=pd.read_csv("titanic_data.csv")
data.drop(['PassengerId'],axis=1,inplace=True)
data.loc[data['Sex']=='male','Sex']=1
data.loc[data["Sex"]=='female',"Sex"]=0
data.fillna(int(data.Age.mean()),inplace=True)
dtc=DecisionTreeClassifier(criterion="entropy")
dtc.fit(data.iloc[:,1:3],data.iloc[:,0])
dtc.score(data.iloc[:,1:3],data.iloc[:,0])

3.神经网络模型

这部分,有点难。。。以后再学,以后学习tensorflow等,具体自己以后推导公式

4.KNN算法

k-近邻分类。分类属于有监督学习,而聚类属于无监督学习。

主要思想:随机一个点,寻找离这个点最近的K个点。在这K个点中,可能会有a,b,c三种类别。若a的出现频率最高,则这个点属于a类

import numpy as np 
import matplotlib.pyplot as plt 
from matplotlib.colors import ListedColormap
from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_iris

iris=load_iris()
x=iris.data[:,:2]
y=iris.target

cmap_light=ListedColormap(["#FFAAAA","#AAFFAA","#AAAAFF"])
cmap_bold=ListedColormap(["#FF0000","#00FF00","#0000FF"])
clf=KNeighborsClassifier(n_neighbors=15)
clf.fit(x,y)
#画出决策边界,原理就是把不同的区域,画出很多点,并且颜色不同
x_min,x_max=min(x[:,0])-1,max(x[:,0])+1
y_min,y_max=min(x[:,1])-1,max(x[:,1])+1
#生成网格点坐标矩阵
xx,yy=np.meshgrid(np.arange(x_min,x_max,0.02),np.arange(y_min,y_max,0.02))
#np的ravel()方法实现的是降维处理,将多维矩阵将为一维,
# 如X=np.array([[1,2,3],[4,5,6]])
#X.ravel()就是[1,2,3,4,5,6],但是这个矩阵是原来矩阵的一个视图,改变这个矩阵会改变原来的映射矩阵(初始矩阵)
z=clf.predict(np.c_[xx.ravel(),yy.ravel()]).reshape(xx.shape)

plt.figure()
plt.pcolormesh(xx,yy,z,cmap=cmap_light)

plt.scatter(x[:,0],x[:,1],c=y,cmap=cmap_bold)
#设置坐标的最大最小值
plt.xlim(xx.min(),xx.max())
plt.ylim(yy.min(),yy.max())
plt.show()

5.朴素贝叶斯分类算法,适用于垃圾邮件分类

  • 普通的,贝叶斯公式,极大似然估计,离散数据
  • 高斯朴素贝叶斯,处理连续数据
  • 多项式朴素贝叶斯,用来处理多分类问题
from sklearn import datasets
from sklearn.naive_bayes import GaussianNB
iris=datasets.load_iris()
gnb=GaussianNB()
gnb.fit(iris.data,iris.target)
y_pre=gnb.predict(iris.data)
iris.data.shape[0]
(iris.target!=y_pre).sum()
#150个,6个预测失败,成功率很高

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值