机器学习完整流程

本文详细介绍了机器学习项目从头到尾的完整流程,包括项目概述、数据获取、数据探索与可视化、数据预处理、模型选择与训练、模型微调以及解决方案的部署、监控和维护。关键步骤包括选择性能指标(如RMSE和MAE)、创建测试集、数据清洗、特征缩放、模型训练与评估、以及通过网格搜索和随机搜索进行超参数调优。
摘要由CSDN通过智能技术生成

目录

1.项目概述

1.1.划定问题

1.2.选择性能指标

1.3.核实假设

2.获取数据

2.1.创建工作空间

2.2.下载数据

2.3.快速查看数据结构

2.4.创建测试集

3.数据探索并可视化数据,发现规律

3.1.查找关联

3.2.属性组合试验

4.为机器学习模型学习准备数据

4.1.数据清洗

4.2.处理文本和类别属性

4.3.自定义转换器

4.4.特征缩放

4.5.转换流水线

5.选择模型,进行训练

5.1.在训练集上训练和评估

5.2.交叉验证做更佳的评估

6.微调模型

6.1.网格搜索

6.2.随机搜索

6.3.集成方法

6.4.分析最佳模型和误差

6.5.用测试集评估系统

7.给出解决方案

8.部署、监控、维护系统


1.项目概述

数据的有哪些特征类别,将要建立的模型需要预测什么

1.1.划定问题

第一个问题就是项目的商业目标是什么,建立模型不是最终目的,建立模型的目的是公司的收益和将要处理的问题

第二个问题就是现有解决方案的性能,以便对将要建立的模型性能有个大概预期

 

1.2.选择性能指标

RMSE和MAE都是测量预测值和目标值两个向量距离的方法,有多种测量向量距离,或范式的方法:

欧几里得范数的平方和的根(RMSE),计算对应与e1范数的绝对值之和(MAE),又称为曼哈顿范数,测量列城市中的两点,沿着矩形边形行走的距离

范数的指数越高,就越关注大的值而忽略小的值,这就是RMSE比MAE对异常值更命案,但当异常值是指数分布(类似正太分布),RMSE表现会更高

范数(norm):它常常被用来度量某个向量空间(或矩阵)中的每个向量的长度或大小

回归问题的常用性能指标是均方根误差(RMSE),均方根误差测量的是系统预测的标准差

当异常值较多时,可以用到平均绝对误差(MAE,Mean Absolute Error)

1.3.核实假设

最后,最好列出并核对迄今作出的假设,这样可以尽早发现问题,例如,你的系统输出会传入下游机器学习系统,我们的假设会被下游机器学习系统当作输入使用,如果下游系统实际需要的是分类值(高,中,低),这就是你就需要假设分类问题,而不是回归问题

2.获取数据

2.1.创建工作空间

安装相关工具,准备相关初始数据

2.2.下载数据

import os
import tarfile
import pandas as pd
from six.moves import urllib
DOWNLOAD_ROOT = "https://raw.githubusercontent.com/ageron/handson-ml/master/"
HOUSING_PATH = "datasets/housing"
HOUSING_URL = DOWNLOAD_ROOT	+ HOUSING_PATH + "/housing.tgz"
def	fetch_housing_data(housing_url=HOUSING_URL,	housing_path=HOUSING_PATH):
'''在工作空间创建一个目录,下载tar文件,然后解压出csv文件'''
	if	not	os.path.isdir(housing_path):
		os.makedirs(housing_path)
		tgz_path = os.path.join(housing_path, "housing.tgz")
		urllib.request.urlretrieve(housing_url,	tgz_path)
		housing_tgz	= tarfile.open(tgz_path)
		housing_tgz.extractall(path=housing_path)
		housing_tgz.close()

def	load_housing_data(housing_path=HOUSING_PATH):
'''读取csv文件'''
	csv_path = os.path.join(housing_path, "housing.csv")
	return pd.read_csv(csv_path)

2.3.快速查看数据结构及其可视化

data.head()
data.info()
data.value_counts
data.describe

import	matplotlib.pyplot	as	plt
housing.hist(bins=50,	figsize=(20,15))
plt.show()

2.4.创建测试集

分割数据:如果查看了测试集,就会根据测试集的规律来选择某个机器学习类型,再当你使用测试集来评估误差时,就会导致过于乐观,而实际部署的系统表现就会差,这称为数据透视偏差。

创建测试集很简单,只是简单从数据集内随机抽取一部分数据即可,一般是数据集的20%,放到一边:

import numpy as np
def	split_train_test(data,test_ratio):  #scikit-learn提供列此方法
	shuffled_indices=np.random.permutation(len(data))
	test_set_size=int(len(data)	*test_ratio)
	test_indices=shuffled_indices[:test_set_size]
	train_indices=shuffled_indices[test_set_size:]
	return	data.iloc[train_indices],	data.iloc[test_indices]

train_set,test_set=split_train_test(housing,0.2)
print(len(train_set),"train	+",	len(test_set),"test")
16512	train	+	4128	test

3.数据探索并可视化数据,发现规律

3.1.查找关联

标准相关系数:standard correlation coeficent,又称为皮尔逊相关系数。使用corr(两类)或corr_matrix(1和其他)方法,相关系数范围是-1~1,1表示正相关,即x大y大,-1表示负相关,x大y小,为0表示没有相关

from pandas.tools.plotting import scatter_matrix  #每个属性和其他属性的相关性
attributes = ["median_house_value",	"median_income", "total_rooms",							"housing_median_age"]
scatter_matrix(housing[attributes],	figsize=(12,8))

3.2.特征组合试验

将多个特征组合为一个特征,如将单价和数量组合为总价

data['总价']=data['单价']*data['数量']

4.为机器学习模型学习准备数据

4.1.数据清洗

4.11.首先需要将数据集的标签和样本拆分,使用drop删掉标签

housing=strat_train_set.drop("median_house_value",axis=1)
housing_labels=strat_train_set["median_house_value"]

4.12.大多数机器学习算法不能处理缺失值,因此先创建一个函数来处理特征值缺失

housing.dropna(subset=["total_bedrooms"])  #删除缺失值所在行
housing.drop("total_bedrooms",	axis=1)  #删除整个属性
median	=	housing["total_bedrooms"].median()  
housing["total_bedrooms"].fillna(median)  #填充缺失,0或中位数或平均数

 scikit-learn提供列缺失值处理方法Imputer

from sklearn.preprocessing import Imputer
imputer = Imputer(strategy="median")  #实例化Imputer
imputer.fit(housing_num)  #使用fit方法,将Imputer实例拟合到训练数据

#Imputer计算出了houseing_num样本集所有特征的中位数,现在即将现在只有某个特征存在缺失值,但不能保证其他特征不存在缺失值,所以需要进一步扩充到其他特征,即使用转换器
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值