第二部分__建模应用篇__第七章_

本文链接：https://blog.csdn.net/qq_36515370/article/details/82924438

这是学习的第二个部分，第一部分中复习了or学习了一些基础知识，这里进入到第二部分的建模应用篇，还有一个好消息，数模论文被推到省赛区组委会，国奖有希望。下面正式进入学习部分。

分类与预测是机器学习有监督学习任务的代表，要求估计预测值，是“回归任务”，要去判断因变量属于哪个类别时，是“分类任务”。

1.回归分析

1.1线性回归

线性回归，使用矩条件，计量经济学中有系统的学过，需要一定的线性代数基础。

上面的思想必须要知道，实现的时候可以用sklearn库实现，不需要自己再写重复的轮子，下面使用代码实现：

#波士顿房价预测问题
import numpy as np 
import matplotlib.pyplot as plt
from sklearn.datasets import load_boston
from sklearn.linear_model import LinearRegression

boston=load_boston()

x=boston.data[:,np.newaxis,5]
y=boston.target
lm=LinearRegression()
lm.fit(x,y)
print(lm.score(x,y))#输出R-squre

plt.scatter(x,y,color="green")
plt.plot(x,lm.predict(x),color="blue",linewidth=3)
plt.show()

1.2逻辑回归

逻辑回归是对数几率回归，属于广义线性模型，函数图像为S型，计量经济学同样教授过，一般的因变量取值只有0或1，Logistic函数，确定权重的时候用的极大似然估计。

逻辑回归代码实现：

import pandas as pd 
from sklearn.linear_model import LogisticRegression
from sklearn.cross_validation import train_test_split
data=pd.read_csv('LogisticRegression.csv',encoding='utf-8')
#类型变量进行度热编码，分离成多个虚拟变量,划分等级
data_dums=pd.get_dummies(data,prefix='rank',columns=['rank'],drop_first=True)
x_train,x_test,y_train,y_test=train_test_split(data_dums.ix[:,1:],data_dums.ix[:,0],test_size=.1,random_state=520)
lr=LogisticRegression()
lr.fit(x_train,y_train)
lr.score(x_test,y_test)

2.决策树

import pandas as pd 
from sklearn.tree import DecisionTreeClassifier
data=pd.DataFrame()
data=pd.read_csv("titanic_data.csv")
data.drop(['PassengerId'],axis=1,inplace=True)
data.loc[data['Sex']=='male','Sex']=1
data.loc[data["Sex"]=='female',"Sex"]=0
data.fillna(int(data.Age.mean()),inplace=True)
dtc=DecisionTreeClassifier(criterion="entropy")
dtc.fit(data.iloc[:,1:3],data.iloc[:,0])
dtc.score(data.iloc[:,1:3],data.iloc[:,0])

3.神经网络模型

这部分，有点难。。。以后再学，以后学习tensorflow等，具体自己以后推导公式

4.KNN算法

k-近邻分类。分类属于有监督学习，而聚类属于无监督学习。

主要思想：随机一个点，寻找离这个点最近的K个点。在这K个点中，可能会有a,b,c三种类别。若a的出现频率最高，则这个点属于a类

import numpy as np 
import matplotlib.pyplot as plt 
from matplotlib.colors import ListedColormap
from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_iris

iris=load_iris()
x=iris.data[:,:2]
y=iris.target

cmap_light=ListedColormap(["#FFAAAA","#AAFFAA","#AAAAFF"])
cmap_bold=ListedColormap(["#FF0000","#00FF00","#0000FF"])
clf=KNeighborsClassifier(n_neighbors=15)
clf.fit(x,y)
#画出决策边界,原理就是把不同的区域，画出很多点，并且颜色不同
x_min,x_max=min(x[:,0])-1,max(x[:,0])+1
y_min,y_max=min(x[:,1])-1,max(x[:,1])+1
#生成网格点坐标矩阵
xx,yy=np.meshgrid(np.arange(x_min,x_max,0.02),np.arange(y_min,y_max,0.02))
#np的ravel（）方法实现的是降维处理，将多维矩阵将为一维，
# 如X=np.array([[1,2,3],[4,5,6]])
#X.ravel()就是[1,2,3,4,5,6],但是这个矩阵是原来矩阵的一个视图，改变这个矩阵会改变原来的映射矩阵（初始矩阵）
z=clf.predict(np.c_[xx.ravel(),yy.ravel()]).reshape(xx.shape)

plt.figure()
plt.pcolormesh(xx,yy,z,cmap=cmap_light)

plt.scatter(x[:,0],x[:,1],c=y,cmap=cmap_bold)
#设置坐标的最大最小值
plt.xlim(xx.min(),xx.max())
plt.ylim(yy.min(),yy.max())
plt.show()

5.朴素贝叶斯分类算法，适用于垃圾邮件分类

普通的，贝叶斯公式，极大似然估计，离散数据
高斯朴素贝叶斯，处理连续数据
多项式朴素贝叶斯，用来处理多分类问题

from sklearn import datasets
from sklearn.naive_bayes import GaussianNB
iris=datasets.load_iris()
gnb=GaussianNB()
gnb.fit(iris.data,iris.target)
y_pre=gnb.predict(iris.data)
iris.data.shape[0]
(iris.target!=y_pre).sum()
#150个，6个预测失败，成功率很高