sklearn
看不见我呀
坚持就是胜利
展开
-
第二章 端到端的机器学习项目——最全的房价预测案例(二)
目录1.加载数据1.2分离测试集1.2数据清洗1.3处理文本和分类属性1.4自定义转换器1.5特征缩放1.6转换流水线2.选择和训练模型2.1训练和评估训练集2.2使用交叉验证集来更好的进行评估2.3微调模型2.3.1网格搜索2.3.2随机搜索2.3.3集成方法2.3.4分析最佳模型及其错误2.4通过测试集评估系统3.启动、监控和...原创 2019-07-02 22:55:24 · 312 阅读 · 0 评论 -
机器学习项目清单
来源:https://zhuanlan.zhihu.com/p/34667595目录1 规范化问题:Frame the Problem and Look at the Big Picture2 获取数据:Get the Data3 探索数据:Explore the Data4 数据预处理:Prepare the Data5 列出可能的模型:Short-List Promis...转载 2019-07-02 23:10:13 · 188 阅读 · 0 评论 -
第1章 机器学习概览
第一个机器学习实例:垃圾邮件分类器。什么是机器学习:有任务,为了完成任务需要有经验和指标。经验从训练数据中获取。指标用于衡量任务完成的怎么样。为什么要使用ML:传统的算法其实是规则,很难维护。 但是机器学习,可能会揭示出人类未曾意识到的关联型,帮助我们理解问题。 引出:数据挖掘:应用机器学习技术挖掘海量数据,发现并非立见...原创 2019-06-28 01:46:21 · 202 阅读 · 0 评论 -
第二章 端到端的机器学习项目——最全的房价预测案例
学会了使用自动目录,这个可以美美的了。目录1.前置知识1.1使用真实数据1.2观察大局1.3框架问题1.4 选择性能指标1.5检查假设2.获取数据2.1创建工作区2.2下载数据2.3分析数据2.3.1统计学的角度分析——head/info/value_counts/describe2.3.2图形的角度分析——直方图对2.4创建测试集——引入分...原创 2019-06-28 23:09:04 · 971 阅读 · 0 评论 -
插播一:数据对范数的影响
机器学习指标:是要选RMSE,还是选择MAE呢。RMSE为2范数,MAE为1范数。范数越高,则越关注越大的价值,忽视小的价值。因此RMSE比MAE,对异常值更加敏感。但是,当异常值较少时,RMSE的表现会好一些。以下为我自己的测试范数。以下为只有20个数据中只有一个异常值:以下为20个数据中有10个异常值:限制到【0,400】便于观察:...原创 2019-06-28 23:38:12 · 249 阅读 · 0 评论