sklearn
看不见我呀
坚持就是胜利
展开
-
第二章 端到端的机器学习项目——最全的房价预测案例(二)
目录 1.加载数据 1.2分离测试集 1.2数据清洗 1.3处理文本和分类属性 1.4自定义转换器 1.5特征缩放 1.6转换流水线 2.选择和训练模型 2.1训练和评估训练集 2.2使用交叉验证集来更好的进行评估 2.3微调模型 2.3.1网格搜索 2.3.2随机搜索 2.3.3集成方法 2.3.4分析最佳模型及其错误 2.4通过测试集评估系统 3.启动、监控和...原创 2019-07-02 22:55:24 · 319 阅读 · 0 评论 -
机器学习项目清单
来源:https://zhuanlan.zhihu.com/p/34667595 目录 1 规范化问题:Frame the Problem and Look at the Big Picture 2 获取数据:Get the Data 3 探索数据:Explore the Data 4 数据预处理:Prepare the Data 5 列出可能的模型:Short-List Promis...转载 2019-07-02 23:10:13 · 194 阅读 · 0 评论 -
第1章 机器学习概览
第一个机器学习实例:垃圾邮件分类器。 什么是机器学习:有任务,为了完成任务需要有经验和指标。经验从训练数据中获取。指标用于衡量任务完成的怎么样。 为什么要使用ML:传统的算法其实是规则,很难维护。 但是机器学习,可能会揭示出人类未曾意识到的关联型,帮助我们理解问题。 引出:数据挖掘:应用机器学习技术挖掘海量数据,发现并非立见...原创 2019-06-28 01:46:21 · 209 阅读 · 0 评论 -
第二章 端到端的机器学习项目——最全的房价预测案例
学会了使用自动目录,这个可以美美的了。 目录 1.前置知识 1.1使用真实数据 1.2观察大局 1.3框架问题 1.4 选择性能指标 1.5检查假设 2.获取数据 2.1创建工作区 2.2下载数据 2.3分析数据 2.3.1统计学的角度分析——head/info/value_counts/describe 2.3.2图形的角度分析——直方图对 2.4创建测试集——引入分...原创 2019-06-28 23:09:04 · 985 阅读 · 0 评论 -
插播一:数据对范数的影响
机器学习指标:是要选RMSE,还是选择MAE呢。 RMSE为2范数,MAE为1范数。 范数越高,则越关注越大的价值,忽视小的价值。 因此RMSE比MAE,对异常值更加敏感。 但是,当异常值较少时,RMSE的表现会好一些。 以下为我自己的测试范数。 以下为只有20个数据中只有一个异常值: 以下为20个数据中有10个异常值: 限制到【0,400】便于观察: ...原创 2019-06-28 23:38:12 · 254 阅读 · 0 评论