大数据概论 2章

数据科学的学科地位

数据科学本身并不是一个独立的学科,而一个交叉学科。其混合了数学/统计学,计算机科学和商业知识。其创立的本意,就是在计算机的帮助下,使用统计/数学知识去处理数据从而获得商业的洞见。
从知识体系看,数据科学主要以统计学、机器学习、数据可视化以及(某一)领域知识为理论基础,其主要研究内容包括数据科学基础理论、数据加工、数据计算、数据管理、数据分析和数据产品开发。
在这里插入图片描述

统计学与数据科学

  1. 统计学是一门比较传统的学科,一般包括参数估计、假设检验、回归分析、生存分析、因子分析、时间序列、非参数统计等。主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析、总结,并进而进行推断和预测,为相关决策提供依据和参考对数据的研究和分析。
  2. 数据科学是一门新兴学科,是统计、数学和计算机的交叉学科,会大量运用统计学的模型,但它更偏向于运用现代的机器学习模型,比如支持向量机、决策树、深度学习等,更偏向结局大样本(如互联网、人工智能)的问题,计算量非常庞大,通常借助于CPU等手段,即所谓的借用数据去“理解和分析实际现象”。

机器学习

线性回归

例如:y = B0 + B1 * x
我们将在给定输入 x 的情况下预测 y,线性回归学习算法的目标是找到系数 B0 和 B1 的值,使得更好的拟合样本的结果。
其结果y是由多个输入值x,通过加权而来的。

逻辑回归

更倾向于解决二分类问题。
逻辑回归类似于线性回归,其目标是找到加权每个输入变量的系数值。与线性回归不同,输出的预测是使用称为逻辑函数的非线性函数转换的。
逻辑回归会将任何输入值映射到**(0,1)**上。
在这里插入图片描述

K邻近

主要过程
1,为了判断未知实例的类别,以所有已知类别的实例作为参照选择参数K
2,计算未知实例与所有已知实例的距离。
3,选择最近k个已知实例
4,根据少数服从多数的投票法则(majority-voting),让未知实例归类为K个最邻近样本中最多数的类别
在这里插入图片描述

决策树

常用于分类问题
决策树学习的目标:根据给定的训练数据集构建一个决策树模型,使它能够对实例进行正确的分类。
例如:
在这里插入图片描述

朴素贝叶斯

朴素贝叶斯(Naive Bayes)是一种基于概率理论的分类算法,以贝叶斯理论为理论基础,通过计算样本归属于不同类别的概率来进行分类,是一种经典的分类算法。朴素贝叶斯是贝叶斯分类器里的一种方法,之所以称它朴素,原因在于它采用了特征条件全部独立的假设。

思想: 对于给定的待分类样本, 通过学习到的模型计算后验概率分布, 即: 在此样本出现(X)的条件下各个label出现的概率, 将后验概率最大的类作为样本所属的类别, 后验概率根据贝叶斯定理计算.
在这里插入图片描述

聚类分析

聚类,简单地说就是把相似的东西分到一组,聚类的时候,我们并不关心某一类是什么,我们需要实现的目标只是把相似的东西聚到一起。
因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了。
聚类所说的类不是事先给定的,而是根据数据的相似性和距离来划分,且对象之间的相似度是基于对象间的距离来计算的。

支持向量机(SVM)

在这里插入图片描述
核心:找到不同类别之间的分类面,使得两类样本尽量落在面的两边,且离分类面尽量远。

随机森林

在这里插入图片描述
随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法。
其实从直观角度来解释,每棵决策树都是一个分类器(假设现在针对的是分类问题),那么对于一个输入样本,N棵树会有N个分类结果。而随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出,这就是一种最简单的 Bagging 思想。

数据可视化

概述:
数据可视化在量化分析当中是一个非常关键的辅助工具,往往我们需要通过可视化技术,对我们的数据进行更清晰的展示,这样也能帮助我们理解交易、理解数据。通过数据的可视化也可以更快速的发现量化投资中的一些问题,更有利于分析并解决它们。接下来我们主要使用的可视化工具包叫做——Matplotlib,它是基于Numpy和tkinter二次开发的,它是一个强大的Python绘图和数据可视化的工具包。

常用库

  • matplotlib
  • seaborn
  • pygal
  • pyecharts
  • plotly
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值