大数据技术之综合开发--张老师 2020.06.02

Xxxx. .Xxxx

于 2020-06-02 20:41:42 发布

阅读量348

点赞数

文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/becomeyee/article/details/106502889

版权

目录：

1.发展概述
2.技术问题

笔记：

什么是大数据？
一开始的解决温饱，后来的物品交易，现在的远征开拓
大数据4V的特点

Volume (大量性) ----数据多
Variety (多样性) ----数据多
Velocity (高实时性) ----数据快
Value (价值低密度性) -----数据单一数据价值低，出现冗余的现象

技术问题

数据存储数量 --------云计算
数据存储方式 --------超级计算机(分布式计算)
数据计算方式 --------树莓派集群(分布式计算)
数据获取利用 ---------GPU计算

hadoop

HDFS 分而治之高容错性提高比较大的吞吐量适合超大数据集的应用程序
MapReduce 单个硬件设备满足不了的时候
Yarn 提供MapReduce的操作

大数据的数据来源

历史数据
商业数据（获取原存在问题）
共享数据（imagenet）
网络数据（爬虫）
IoT数据（物联网）

获取手段

收集各类共享数据库
网络爬取所需数据
通过数据特征变换（不改变分布的情况下进行数据填充）

数据爬取
特征工程

特征清洗
清洗异常数据：直接删除异常数据
采样的数据不均衡问题重采样复制之后进行进一步处理
预处理
单特征的标准化
特征X不在一个量纲里面对应的参数T也不一样
归一化：标准化求最优解
离散化：用单个数据表示一段连续化数据

数据可视化
excel
seaborn库
poltly库
sugar

Echarts

Tableau
机器学习
有监督学习
强化学习
半监督学习

有监督学习
有标签的训练场数据
监督学习的两个典型分类：分类回归
线性回归：最小二乘法
逻辑回归：映射到0–1的区间
半监督学习
数量较小的有标记的样本数据来完成操作
大量未标记的数据和少量标签数据。
强化学习

以奖励信号函数值最大------> 阿尔法狗
在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据技术之综合开发--张老师 2020.06.02

目录：1.发展概述2.技术问题笔记：什么是大数据？一开始的解决温饱，后来的物品交易，现在的远征开拓大数据4V的特点Volume (大量性) ----数据多Variety (多样性) ----数据多Velocity (高实时性) ----数据快Value (价值低密度性) -----数据单一数据价值低，出现冗余的现象技术问题数据存储数量 --------云计算数据存储方式 --------超级计算机(分布式计算)数据计算方式 -------
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。