机器学习
Elffer
脚踏实地,仰望星空
--成长中的AI架构师
展开
-
kaggle比赛 - 销量预测实战全记录
M5 Forecasting - Accuracy总体思路Part I. 课题了解;输入数据输出结果与输出形式Part II. 数据分析2.1 数据范围分析2.2数据质量(异常值处理)2.3数据相关性分析2.4 初步特征工程,2.5 建一个baseline宽表;2.6 建立pipelinePart III.预测模型3.1 模...原创 2020-04-16 20:51:20 · 3159 阅读 · 0 评论 -
预测基本问题
chapter 1. 预测有哪些典型应用主要的预测场景针对各主要场景分别要考虑的主要特征chapter 2. 主流的预测方法有哪些,分别适合哪些场景建立针对主要问题和主要方法的代码库各模型的主要参数分别是什么针对主要方法的调参要领分别是什么chapter 3. 整理一到两个项目的部署实例以及整套的的项目相关文档chapter 4. 预测经验集合: 整理提升预测精度的主要方法,从业...原创 2020-03-14 14:19:21 · 543 阅读 · 0 评论 -
决策树
目录Part I: 基本定义Part II: 基本流程递归终止条件:Part III: 如何选择最优划分属性信息增益(inforamtion gain)增益率(gain ratio)基尼指数(Gini index)Part IV: 决策树处理过拟合剪枝处理-预剪枝剪枝处理-后剪枝Part V: 连续值处理Part VI: 缺失值处理Referen...原创 2019-09-24 10:22:56 · 468 阅读 · 0 评论 -
随机森林
Part I: 集成学习简述集成学习(ensemble learning) 通过构件并结合多个学习器来完成学习任务. 在集成学习中, 随着集成中个体分类数目的增大, 集成的错误率将指数下降, 最终趋向于零. 这里有一个关键假设: 基学习器的误差相互独立.根据个体学习器的生成方式, 目前的集成学习方法大致可分为两大类:个体学习器间存在强依赖关系, 必须串行生成的序列化方法, 代表是Boo...原创 2019-09-25 11:22:26 · 469 阅读 · 0 评论 -
特征选择
目录为什么要进行特征选择?特征选择的两个环节Part I: 常见的特征选择方法1. 过滤式选择2. 包裹式选择3. 嵌入式选择Part II: 降维基于主成分分析的特征提取为什么要进行特征选择?一是因为现实任务中经常为遇到维数灾难问题;二是因为去除不相关特征会降低学习任务的难度;特征选择的两个环节1) 子集搜索2)子集评价:我们可以基于...原创 2019-09-28 17:13:25 · 562 阅读 · 0 评论 -
特征提取与特征工程
目录PartI: 数值类数据的特征工程1.1 Counts 计数1.2 Binarization 二值化1.3 Rounding: 四舍五入1.4 Interactions: 多元交互1.5 Binning: 数据分箱1.6 Statistical Transformations 统计变换1.7 Log Transform1.8 Box-Cox Transfor...原创 2019-09-29 14:55:05 · 1186 阅读 · 1 评论 -
Python实现自动构造训练集与测试集
从KITTI数据集下Lidar, image, lable等多个文件夹自动构造新的数据集。 新的数据集结构如下:import os, random, shutildef moveFile(fileDir): pathDir = os.listdir(fileDir) #取图片的原始路径 filenumber=len(pathDir) ...原创 2019-10-04 22:48:39 · 1143 阅读 · 0 评论 -
XGBOOST系列I: 基本原理
该系列还在整理中.XGBOOST系列I: 基本原理XGBOOST系列II:模型代码XGBOOST系列III: 代码解释XGBOOST系列IV: 主要参数以及调参要点References:[1]. 陈天奇slides:https://homes.cs.washington.edu/~tqchen/pdf/BoostedTree.pdf[2]. Offici...原创 2019-10-09 08:34:52 · 168 阅读 · 0 评论