数据分析入门--数据科学框架的搭建--01、02数据科学简介

最新推荐文章于 2021-01-31 14:39:43 发布

北白白

最新推荐文章于 2021-01-31 14:39:43 发布

阅读量397

点赞数

文章标签：数据分

本文链接：https://blog.csdn.net/weixin_41761857/article/details/80615718

版权

本文基于kaggle入门项目Titanic金牌获得者的Kernel翻译而来，并对其代码进行注解

原文链接https://www.kaggle.com/ldfreeman3/a-data-science-framework-to-achieve-99-accuracy

具体的项目介绍参考https://www.kaggle.com/c/titanic

翻译的比较粗略，主要是为了理解文章的中心思想和数据分析的主要流程

1.一个数据科学家是如何击败赔率的

这是经典问题，预测二元事件的结果。这意味着它只有发生了和没有发生两种结果。比如说，你赢了或者没赢，你通过了考试或者没有通过考试，你被录取还是没有被录取录取，常见的业务应用是客户流失或客户保留问题，另一个流行的案例是医疗保健的死亡率或生存分析。二进制事件有一个有趣的现象，因为我们知道统计上，随机猜测应该达到50%的准确率，而不用创建算法或编写代码。然而，就像自动更正SPELLCHECK技术，有时我们太关注于自己的长处的长处，而且实际上我们还不太擅长掷硬币。在这个Kernal中，我使用Kaggle的入门竞赛“泰坦尼克：机器从灾难中学习”通过这个项目学习，如何使用数据科学框架来击败赔率。

2.数据科学框架

1）定义问题：如果数据科学，大数据，机器学习，预测Analytics，商业智能，或任何其他流行词，是问题的解决方案，那么问题是什么？这是说，不要把车放在马前面(不要本末倒置)。在找到问题在找到解决方案之前，解决方案在设计（框架）之前，而设计（框架）在技术之前。在我们解决问题之前我们不要过度的关注新的技术或算法。

2）收集数据：John Naisbitt在他的1984（是，1984）本书中写道：“我们在数据中沉溺，却在知识中饿死。”数据存在在那里，它可能是外部的或内部的、结构化的或非结构化的、静态的或流式的、客观的或主观的等等。俗话说，你不必重新发明轮子，你只需要知道在哪里找到它。下一步，我们将“脏数据”转化为“干净数据”。

3）为消费准备数据：这一步通常被称为数据争用，是将“野生”数据转换成“可管理”数据的必经过程。数据争用包括实现用于存储和处理的数据架构、开发质量和控制的数据治理标准、数据提取（即ETL和Web擦除）和数据清理以识别异常、缺失或离群数据点。

4）执行探索性分析：任何与数据一起工作的人都知道，垃圾输入，垃圾清除（GIGO）的重要性。因此，重要的是部署描述性和图形统计，以寻找潜在的问题，模式，分类，相关性和比较数据集。此外，数据分类（即定性与定量）对于理解和选择正确的假设检验或数据模型也很重要。

5）模型数据：应用像像描述性和推断性统计等方法，数据建模可以总结数据或预测未来的结果。数据集和预期结果将决定可供使用的算法。重要的是要记住，算法是工具，而不是魔法魔杖或银子弹。你仍然必须是知道如何为工作选择合适的工具的大师（WO）。一个类比是要求某人递给你一把菲利普螺丝刀，然后他们给你一个平头螺丝刀或最坏的锤子。充其量，他完全派不上用场。在最坏的情况下，项目没办法完成。在数据建模中也是如此。错误的模型在最坏的情况下会导致性能不佳和错误的结论（作为可操作的情报）。

6）验证和实现数据模型：在基于数据的子集训练好模型之后，现在是测试模型的时候了。这有助于确保没有过度拟合模型或使其对所选子集具有特定性，因为它不能准确地匹配来自同一数据集的另一个子集。在这个步骤中，我们确定我们的模型是否适合、概括或不适合我们的数据集。

7）优化和战略：这是“仿生人”的步骤，在这里你反复地通过这个过程，使它变得更好…更强大……比以前更快。作为一名数据科学家，您的策略应该是外包给开发人员进行操作和应用程序管道，因此您有更多的时间关注推荐和设计。一旦你能够包装你的想法，这就变成了你的“货币兑换率”。