数据分析入门--数据科学框架的搭建--01、02数据科学简介

本文基于kaggle入门项目Titanic金牌获得者的Kernel翻译而来,并对其代码进行注解

具体的项目介绍参考https://www.kaggle.com/c/titanic

翻译的比较粗略,主要是为了理解文章的中心思想和数据分析的主要流程


1.一个数据科学家是如何击败赔率的


这是经典问题,预测二元事件的结果。这意味着它只有发生了和没有发生两种结果。比如说,你赢了或者没赢,你通过了考试或者没有通过考试,你被录取还是没有被录取录取,常见的业务应用是客户流失或客户保留问题,另一个流行的案例是医疗保健的死亡率或生存分析。二进制事件有一个有趣的现象,因为我们知道统计上,随机猜测应该达到50%的准确率,而不用创建算法或编写代码。然而,就像自动更正SPELLCHECK技术,有时我们太关注于自己的长处的长处,而且实际上我们还不太擅长掷硬币。在这个Kernal中,我使用Kaggle的入门竞赛“泰坦尼克:机器从灾难中学习”通过这个项目学习,如何使用数据科学框架来击败赔率。

2.数据科学框架


1)定义问题:如果数据科学,大数据,机器学习,预测Analytics,商业智能,或任何其他流行词,是问题的解决方案,那么问题是什么?这是说,不要把车放在马前面(不要本末倒置)。在找到问题在找到解决方案之前,解决方案在设计(框架)之前,而设计(框架)在技术之前。在我们解决问题之前我们不要过度的关注新的技术或算法。

2)收集数据:John Naisbitt在他的1984(是,1984)本书中写道:“我们在数据中沉溺,却在知识中饿死。”数据存在在那里,它可能是外部的或内部的、结构化的或非结构化的、静态的或流式的、客观的或主观的等等。俗话说,你不必重新发明轮子,你只需要知道在哪里找到它。下一步,我们将“脏数据”转化为“干净数据”。

3)为消费准备数据:这一步通常被称为数据争用,是将“野生”数据转换成“可管理”数据的必经过程。数据争用包括实现用于存储和处理的数据架构、开发质量和控制的数据治理标准、数据提取(即ETLWeb擦除)和数据清理以识别异常、缺失或离群数据点。

4)执行探索性分析:任何与数据一起工作的人都知道,垃圾输入,垃圾清除(GIGO)的重要性。因此,重要的是部署描述性和图形统计,以寻找潜在的问题,模式,分类,相关性和比较数据集。此外,数据分类(即定性与定量)对于理解和选择正确的假设检验或数据模型也很重要。

5)模型数据:应用像像描述性和推断性统计等方法,数据建模可以总结数据或预测未来的结果。数据集和预期结果将决定可供使用的算法。重要的是要记住,算法是工具,而不是魔法魔杖或银子弹。你仍然必须是知道如何为工作选择合适的工具的大师(WO)。一个类比是要求某人递给你一把菲利普螺丝刀,然后他们给你一个平头螺丝刀或最坏的锤子。充其量,他完全派不上用场。在最坏的情况下,项目没办法完成。在数据建模中也是如此。错误的模型在最坏的情况下会导致性能不佳和错误的结论(作为可操作的情报)。

6)验证和实现数据模型:在基于数据的子集训练好模型之后,现在是测试模型的时候了。这有助于确保没有过度拟合模型或使其对所选子集具有特定性,因为它不能准确地匹配来自同一数据集的另一个子集。在这个步骤中,我们确定我们的模型是否适合、概括或不适合我们的数据集。

7)优化和战略:这是“仿生人”的步骤,在这里你反复地通过这个过程,使它变得更好…更强大……比以前更快。作为一名数据科学家,您的策略应该是外包给开发人员进行操作和应用程序管道,因此您有更多的时间关注推荐和设计。一旦你能够包装你的想法,这就变成了你的“货币兑换率”。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值