机器学习是计算机程序如何随着经验积累自动提高性能。
机器学习形式化的描述:对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么就称这个计算机程序在从经验E学习
第一步:明确问题
第二部:收集数据
第三部:数据预处理
第四部:数学建模
第五布:效果评估
机器学习分类(共五类)
监督学习:给定的数据集中训练出一个函数,当新的数据到来时,可以根据这个函数预测结果(训练集人工标注)
scikit-learn
分类 异常检测,图像识别 KNN,SVM,etc
聚类 图像分割,群体划分 K-Means, 谱聚类
回归 价格预测,趋势预测 线性回归 ,SVR
降维 可视化 PCA,NMF
sklearn中自带训练集数据
case1
波士顿房价数据集,包含506组数据,每条数据包含房屋以及房屋周围的详细信息。其中包含城镇犯罪率,一氧化氮浓度,住宅平均房间数,到中心区域的加权距离以及自住房平均房价。因此,波士顿房价数据能够应用到回归问题上。
使用sklearn.datasets.load_boston即可加载相关数据集
其重要参数为:
• return_X_y:表示是否返回target(即价格),默认为False,
只返回data(即属性)。
import numpy
import scipy
import matplotlib
from sklearn.datasets import load_boston
x=load_boston(return_X_y=True)
#属性集
print(x[0])
#价格
print(x[1])
case2
使用sklearn.datasets. load_iris即可加载相关数据集
其参数有:
• return_X_y:若为True,则以(data, target)形式返回数
据;默认为False,表示以字典形式返回数据全部信息(包括
data和target)。
import numpy
import scipy
import matplotlib
from sklearn.datasets import load_boston,load_iris
x=load_iris(return_X_y=True)
print(x[0])
print(x[1])
import numpy
import scipy
import matplotlib
from sklearn.datasets import load_boston,load_iris
x=load_iris()
print(x)
print(x.data)
print(x.target)
print(x.target_names)
case 3
手写数字数据集
手写数字数据集包括1797个0-9的手写数字数据,每个数字由8*8
大小的矩阵构成,矩阵中值的范围是0-16,代表颜色的深度。
手写数字数据集
使用sklearn.datasets.load_digits即可加载相关数据集
其参数包括:
• return_X_y:若为True,则以(data, target)形式返回
数据;默认为False,表示以字典形式返回数据全部信息
(包括data和target) ;
• n_class:表示返回数据的类别数,如:n_class=5,则返
回0到4的数据样本。