机器学习实战
文章平均质量分 89
记录机器学习的学习笔记
七上八下的黑
这个作者很懒,什么都没留下…
展开
-
加州房价预测项目详细笔记(Regression)——(3)准备数据(数据的预处理)
参考内容《机器学习实战》原作者github:https://github.com/ageron/handson-ml此部分建议编写函数来执行: 函数可以在任何数据集上方便地重现这些转换 逐渐建立的一个转换函数库,可以在以后的项目中重复使用 可以在实时系统(live system)中使用这些函数转换数据后,再喂给算法 可以轻易地尝试多种数据转换,找到效果最好的转换的组合 目录一、数据清理二、处理文本和分类属性三、自定义转换器四、特征缩放原创 2021-07-11 15:23:27 · 1121 阅读 · 0 评论 -
加州房价预测项目详细笔记(Regression)——(2)采样(数据分割)<重要>
为了防止数据窥探偏误(data snooping bias),一般会将机器学习的数据集划分成三个子集:训练集,验证集和测试集。训练集是用来训练模型的,给模型输入和对应的输出,让模型学习它们之间的关系。验证集是用来估计模型的训练水平,比如分类器的分类精确度,预测的误差等,我们可以根据验证集的表现来选择最好的模型。测试集是输入数据在最终得到的模型得到的结果,是训练好的模型在模拟的“新”输入数据上得到的输出。(只能在最后用于测试模型的性能,不能拿来训练。)常见的划分比例是:50%用于训练,25原创 2021-07-07 17:00:37 · 708 阅读 · 0 评论 -
加州房价预测项目详细笔记(Regression)——(1)研究数据获得灵感
加载数据import pandas as pdhousing = pd.read_csv(r"C:\Users\Hudie\Desktop\dataset\housing.csv")#housing是自定义变量,housing.csv是文件名housing快速查看数据结构housing.head()#查看数据前五行housing.info()#快速获得数据集的简单描述可以看到,数据集总共包含20640个实例,需要注意total_bed这个属性只有20433个非空值,有..原创 2021-07-06 20:26:14 · 1450 阅读 · 0 评论 -
用Jupter进行机器学习的入门练习(自用)——(2)模型的保存、加载和决策树的模型可视化
一、模型持久性将之前训练好的模型进行保存,在下次使用时可以不用再训练,可以直接加载进行预测。原创 2021-06-11 17:01:39 · 2421 阅读 · 4 评论 -
用Jupter进行机器学习的入门练习(自用)——(1)模型的建立和精确度测试
包括了数据集获得的网站,和一个入门的机器学习的联系项目(基于Jupyter),总结了机器学习联系中的基本操作流程和学习过程中遇到的问题。原创 2021-06-09 20:09:55 · 2314 阅读 · 2 评论