大数据技术之综合开发--张老师 2020.06.02

目录:

1.发展概述
2.技术问题

笔记:

  • 什么是大数据?
    一开始的解决温饱,后来的物品交易,现在的远征开拓
  • 大数据4V的特点
  1. Volume (大量性) ----数据多
  2. Variety (多样性) ----数据多
  3. Velocity (高实时性) ----数据快
  4. Value (价值低密度性) -----数据单一数据价值低,出现冗余的现象
  • 技术问题
  1. 数据存储数量 --------云计算
  2. 数据存储方式 --------超级计算机(分布式计算)
  3. 数据计算方式 --------树莓派集群(分布式计算)
  4. 数据获取利用 ---------GPU计算
  • hadoop
    在这里插入图片描述

HDFS 分而治之 高容错性 提高比较大的吞吐量 适合超大数据集的应用程序
MapReduce 单个硬件设备满足不了的时候
Yarn 提供MapReduce的操作

  • 大数据的数据来源
  1. 历史数据
  2. 商业数据(获取原存在问题)
  3. 共享数据 (imagenet)
    在这里插入图片描述
  4. 网络数据 (爬虫)
  5. IoT数据 (物联网 )
  • 获取手段
  1. 收集各类共享数据库
  2. 网络爬取所需数据
  3. 通过数据特征变换 (不改变分布的情况下进行数据填充)
  • 数据爬取
    在这里插入图片描述
  • 特征工程
    在这里插入图片描述
    在这里插入图片描述
  1. 特征清洗
    清洗异常数据:直接删除异常数据
    采样的数据不均衡问题 重采样复制之后进行进一步处理
  2. 预处理
    单特征的标准化 在这里插入图片描述
    特征X不在一个量纲里面 对应的参数T也不一样
    归一化:标准化 求最优解
    离散化 :用单个数据表示一段连续化数据
  • 数据可视化
    excel
    seaborn库
    poltly库
    sugar
    在这里插入图片描述
    Echarts
    在这里插入图片描述
    Tableau
    在这里插入图片描述
  • 机器学习
    有监督学习
    强化学习
    半监督学习
  1. 有监督学习
    有标签的训练场数据
    监督学习的两个典型分类:分类 回归在这里插入图片描述
    线性回归:最小二乘法
    逻辑回归:映射到0–1的区间

  2. 半监督学习
    数量较小的有标记的样本数据来完成操作
    大量未标记的数据和少量标签数据。
    在这里插入图片描述

  3. 强化学习

以奖励信号函数值最大------> 阿尔法狗
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值