了解※数据科学※(一)之数据的概念及一个数据科学项目的流程分析

一、基本概念

  1. 数据:
    ①传感器采集到的各种物理、生物、化学指标等等各种可记录,可表征的数量,性质都是数据。
    ②现实中某种事物或事物间关系数量或性质的表征和记录,都称之为数据。
    ③信息的载体。
  2. 大数据
    大数据(big data,mega data)或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。----来自百度link
    4V特点:
    Ⅰ. 体量大(high Volume)
    Ⅱ. 速度快而时效高(high Velocity)
    Ⅲ. 类型繁多(high Variety)
    Ⅳ. 价值密度低(high Veracity)
  3. 数据科学
    应用科学的方法、流程、算法和系统从多种形式的结构化或非结构化数据中提取知识和洞见的交叉学科。 -------维基百科
    数据科学包括数据的搜集、存储、分类、处理、分析、呈现.
    数据科学项目中的人员及其任务
    在这里插入图片描述

二、项目流程
在这里插入图片描述

1.问题的确定 
  用户层面:需要考虑出资方的动机、需求。
  数据科学层面:预测、分类、关联、特征化、聚类、打分或排名
2.制定目标
  应用层面和数据科学层面都要做到明确、具体、可验证、可量化
3.收集数据
4.EDA(探索性数据分析)
  初步了解数据特性,形成一些初步假设

拓展:EDA

概念:是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。
作用:在统计学中,探索性数据分析(EDA)是一种分析数据集以概括其主要特征的方法,通常使用可视化方法。可以使用统计模型,但主要EDA是为了了解数据在形式化建模或假设测试任务之外能告诉我们什么。探索性数据分析是John Tukey提拔的鼓励统计学家的研究数据,并尽可能提出假设,尽可能生成新的数据收集和实验。EDA不同于初始数据分析(IDA),它更集中于检查模型拟合和假设检验所需的假设,以及处理缺少的值,并根据需要进行变量转换,EDA包含IDA。

5.建立模型
常见任务       +         EDA结果       ====>选择并构建合适的模型
👇
预测
分类
关联
特征化
聚类
打分或排名

常见模型
1.统计学模型
2.回归(线性,Logistics)
3.贝叶斯分类器
4.神经网络
5.随机森林

6.评价模型
各类问题对应的指标也不一样。
分类问题------>混淆矩阵
特征提取------>ROC曲线和AUC
统计分析------>统计检验p值和置信区间

有效的数据科学模型----->评价指标需优于以往实现同类任务的模型所实现的指标
不了解以往工作的情况下----->至少要优于空模型的指标(空模型即最简单的模型)

7.展现结果
通过可视化的方法突出对象(出资方或者用户或者数据科学家)所关心的内容。
8.部署模型
测试
确保稳定运行
避免灾难性决策

此文章为学习完中国大学慕课中南京大学的探索数据的奥秘课程第一讲后所写,如需要观看可以访问下面的链接
link

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值