本文基于kaggle入门项目Titanic金牌获得者的Kernel翻译而来,并对其代码进行注解
1.一个数据科学家是如何击败赔率的
2.数据科学框架
1)定义问题:如果数据科学,大数据,机器学习,预测Analytics,商业智能,或任何其他流行词,是问题的解决方案,那么问题是什么?这是说,不要把车放在马前面(不要本末倒置)。在找到问题在找到解决方案之前,解决方案在设计(框架)之前,而设计(框架)在技术之前。在我们解决问题之前我们不要过度的关注新的技术或算法。
2)收集数据:John Naisbitt在他的1984(是,1984)本书中写道:“我们在数据中沉溺,却在知识中饿死。”数据存在在那里,它可能是外部的或内部的、结构化的或非结构化的、静态的或流式的、客观的或主观的等等。俗话说,你不必重新发明轮子,你只需要知道在哪里找到它。下一步,我们将“脏数据”转化为“干净数据”。
3)为消费准备数据:这一步通常被称为数据争用,是将“野生”数据转换成“可管理”数据的必经过程。数据争用包括实现用于存储和处理的数据架构、开发质量和控制的数据治理标准、数据提取(即ETL和Web擦除)和数据清理以识别异常、缺失或离群数据点。
4)执行探索性分析:任何与数据一起工作的人都知道,垃圾输入,垃圾清除(GIGO)的重要性。因此,重要的是部署描述性和图形统计,以寻找潜在的问题,模式,分类,相关性和比较数据集。此外,数据分类(即定性与定量)对于理解和选择正确的假设检验或数据模型也很重要。
5)模型数据:应用像像描述性和推断性统计等方法,数据建模可以总结数据或预测未来的结果。数据集和预期结果将决定可供使用的算法。重要的是要记住,算法是工具,而不是魔法魔杖或银子弹。你仍然必须是知道如何为工作选择合适的工具的大师(WO)。一个类比是要求某人递给你一把菲利普螺丝刀,然后他们给你一个平头螺丝刀或最坏的锤子。充其量,他完全派不上用场。在最坏的情况下,项目没办法完成。在数据建模中也是如此。错误的模型在最坏的情况下会导致性能不佳和错误的结论(作为可操作的情报)。
6)验证和实现数据模型:在基于数据的子集训练好模型之后,现在是测试模型的时候了。这有助于确保没有过度拟合模型或使其对所选子集具有特定性,因为它不能准确地匹配来自同一数据集的另一个子集。在这个步骤中,我们确定我们的模型是否适合、概括或不适合我们的数据集。
7)优化和战略:这是“仿生人”的步骤,在这里你反复地通过这个过程,使它变得更好…更强大……比以前更快。作为一名数据科学家,您的策略应该是外包给开发人员进行操作和应用程序管道,因此您有更多的时间关注推荐和设计。一旦你能够包装你的想法,这就变成了你的“货币兑换率”。