![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据科学导引
水成丶文
大数据,继续前进。
展开
-
数据科学导引欧高炎重点知识三
数据科学导引重点知识1说明9.特征选择9.1一般过程子集产生子集评估子集验证1说明从9开始编号的原因是与书本一致。篇一数据预处理篇二回归模型本篇特征选择与降维可以说使回归模型中需要用到并且熟知的知识,所以不按书本原顺序进行复习,直接先跳到这。9.特征选择9.1一般过程子集产生根据某种策略产生候选的特征子集。前向搜索迭代地进行特征地添加后向搜索迭代地进行特征地删除双向搜索迭代地增加选定地相关特征,同时减少无关特征或者荣誉特征。子集评估由图,子集产生与子集评估原创 2020-08-23 15:03:22 · 855 阅读 · 0 评论 -
数据科学导引欧高炎重点知识二
数据科学导引重点知识1.说明3.回归模型3.1线性回归运用线性回归的假设一元线性回归多元线性回归过拟合与欠拟合3.2线性回归正则化岭回归LASSO岭与LA的对比弹性网络正则化与Group LASSO3.3非线性回归样条回归1.说明从3开始编号的原因是与书本一致。上一篇数据预处理3.回归模型3.1线性回归运用线性回归的假设输入特征非随机且互不相关随机误差具有零均值、同方差的特点,且彼此不想关输入特征与随机误差不相关随机误差服从正太分布假设好像有点多哈,但是条条必要。一元线性回归一原创 2020-08-22 21:21:28 · 789 阅读 · 0 评论 -
数据科学导引欧高炎重点知识一
数据科学导引重点知识1.说明2.数据预处理2.1特征编码数字编码One-Hot编码哑变量编码2.2缺失值处理原因删除法均值填补随机填补1.贝叶斯方法2.近似贝叶斯基于模型的填补哑变量方法EM方法2.3数据标准化原因Z-score标准化Min-Max标准化小数定标标准化Logistic标准化2.4不同标准化方法的对比2.5特征离散化等距离散化等频离散化聚类离散化信息增益离散化其它2.6离群值检测拉依达准则(3σ\sigmaσ准则)K近邻局部离群因子算法(LOF)1.说明从2开始编号的原因是与书本一致。第原创 2020-08-21 17:23:36 · 1962 阅读 · 3 评论