回归项目实例

这篇博客记录了作者阅读《机器学习python实战》一书的魏贞原版本时的所学所思,详细探讨了书中的项目实例,涵盖了从数据预处理到模型训练的全过程。
摘要由CSDN通过智能技术生成

《机器学习python实战》(魏贞原)学习笔记

# 导入类库
import numpy as np
from numpy import arange
from matplotlib import pyplot
from pandas import read_csv
from pandas import  set_option
from pandas.plotting import scatter_matrix
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Lasso
from sklearn.linear_model import ElasticNet
from sklearn.tree import DecisionTreeRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.svm import SVR
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.ensemble import ExtraTreesRegressor
from sklearn.ensemble import AdaBoostRegressor
from sklearn.metrics import mean_squared_error

# 导入数据
filename = 'housing.csv'
names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS',
         'RAD', 'TAX', 'PRTATIO', 'B', 'LSTAT', 'MEDV']
dataset = read_csv(filename, names=names, delim_whitespace=True)


# ----------理解数据-------------
# 数据维度
# 首先看一下数据维度,例如数据集中有多少条记录、有多少个数据特征。
print(dataset.shape)

# 特征熟悉的字段类型
print(dataset.dtypes)

# 查看最开始的30条记录
# 指定输出的宽度为120个字符,以确保将所有特征属性值显示在一行内
set_option('display.line_width', 120)
print(dataset.head(30))

# 描述性统计信息
# 加深对数据分布、数据结构等的理解。
set_option('precision', 1)
print(dataset.describe())

# 关联关系
# 看一下数据特征之间的两两关联关系,查看数据的皮尔逊相关系数。
set_option('precision', 2)
print(dataset.corr(method='pearson'))
# 通过结果可以看到,特征属性之间的强关联关系(>0.7或<-0.7)


# ----------数据可视化-------------
# -----------单一特征图表
# 直方图
# 通过查看各个数据特征的数据的分布情况。
dataset.hist(sharex=False, sharey=False, xlabelsize=1, ylabelsize=1)
pyplot.show()

# 密度图
# 通过密度图可以展示这些数据的特征属性,密度图比直方图更加平滑地展示了这些数据特征
dataset.plot(kind='density', subplots=True, layout=(4,4), sharex=False, fontsize=1)
pyplot.show()

# 箱线图
# 通过箱线图可以查看每一个数据特征的状况,也可以很方便地看出数据分布的偏态程度。
dataset.plot(kind='box', subplots=True, layout=(4,4), sharex=False, sharey=False, fontsize=8)
pyplot.show()


# -----------------多重数据图表
# 散点矩阵图
# 查看不同数据特征之间的相互影响关系
# 通过散点矩阵图可以看到,虽然有些数据特征之间的关联关系很强,但是这些数据分布结构也很好。
# 即使不是线性分布结构,也是可以很方便进行预测的分布结构&#x
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值