数据科学导引
文章平均质量分 95
关山怯epoch
这个作者很懒,什么都没留下…
展开
-
使用决策树进行个人信用风险评估
最近在学习机器学习分类算法,本文转载于Ashmore的博客,数据集及原文链接放于文末决策树方法介绍决策树简介决策树(decision tree)是一种基本的分类与回归方法。如下图所示的流程图就是一个决策树,长方形代表判断模块(decision block),椭圆形成代表终止模块(terminating block),表示已经得出结论,可以终止运行。从判断模块引出的左右箭头称作为分支(branch),它可以达到另一个判断模块或者终止模块。我们还可以这样理解,分类决策树模型是一种描述对实例进行分类的树形转载 2022-04-20 21:58:40 · 1520 阅读 · 0 评论 -
应用线性回归预测医疗费用
公司为了赚钱,保险需要募集比花费在受益者的医疗服务上更多的年度保费,因此,保险公司投入了大量的时间和金钱来研发能精确预测医疗费用的模型。医疗费用很难估计,因为花费最高的情况是罕见的而且似乎是随机的。但是有些情况对于特定的群体还是比较普遍存在的。例如,吸烟者比不吸烟者得肺癌的可能性更大,肥胖的人更有可能得心脏病。此分析的目的是利用病人的数据来预测这部分群体的平均医疗费用。这些估计可以用来创造一个精算表,根据预期的治疗费用来设定年度保费价格是高一点还是低一点。1.收集数据为了便于分析,我们使用一个模拟数原创 2022-04-19 23:07:50 · 5041 阅读 · 3 评论 -
汽车价格离群值检测案例
《数据科学导引》汽车价格离群值检测案例第二章案例4(评论可以私发数据表)文章目录《数据科学导引》汽车价格离群值检测案例前言一、数据集描述二、导入数据集并切分三、特征提取并构建线性回归模型四、离群值检测五、标准化对离群值检测的影响六、测试集的验证七、在测试集上使用LOF进行离群值检测前言离群点(Outliers),简单而言就是离其余数据点非常远的数据点。它们会极大的影响后续的分析结果,甚至产生有误导的分析结果。Vast向3个行业的出版商、市场和搜索引擎提供数据,这三个行业包括汽车、房地产和休闲、原创 2022-03-29 00:29:36 · 2956 阅读 · 3 评论