数据科学简介

在这里插入图片描述

数据科学定义

  • 由Mason & Winggins(2010)提出的定义:按照以下五个步骤定义数据科学:(1)数据获取;(2)数据清洗;(3)数据探索;(4)数据建模;(5)数据解释。
    • 数据获取
      • 从其他地方(如网页或服务器)下载数据。
      • 从数据库或API(如MySQL、Twitter)中查询数据。
      • 从其他文件(如HTML文件或者是电子表格)中提取数据。
      • 自己生成数据(如读取传感器或进行调查)。
    • 数据清洗
      在所获取的数据中,缺失值、不一致、错误、怪异字符或冗余列屡见不鲜。所以必须清洗数据后才能进行后续处理。
      • 行过滤
      • 列抽取
      • 值代替
      • 单词(字)提取
      • 缺失值处理
      • 数据格式转换
    • 数据探索
      • 查看数据
      • 从数据中推导统计量
      • 创建有趣的可视化
    • 数据建模
      若想要解释数据或者预测将要发生的事情,应该为数据建立一个统计模型(建立模型的技术有聚类,分类,回归,降维)
    • 数据解释
      • 从数据中得到结论
      • 评估结果意义
      • 告知结果
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值