大数据专题-1

声明

课程笔记,授课教师:
李影 大数据系统核平台 NoSQLDB 大数据计算引擎spark/tensorflow
刘宏志 分析、算法
张齐勋 3案例设计:数据收取分析,搭建大数据平台,平台调优

引言

柯达→索尼(数码领先)→诺基亚(手机=照相机)(被微软收购合并,大量裁员)→苹果(smart phone)→手机大战-三星领先
传音手机 解决African People拍照的人脸识别,小而美
大数据中很多都是非结构数据,e.g.图像

“如果网络能够解决人与企业之间沟通的问题,那么会带来两场革命,一是计算,二是商务。” ——by Louis ?
预言准确
数据中心系统:性能差的机器、故障是常态。
基于此基础设施,实现高性能支撑,并可进行机器学习、人工智能等

Gartner 市场咨询企业
新兴技术成熟度曲线
e.g. 去年深度学习“寒冬”,每种技术都会经过反省期,后来形成方法论指导(也可能消失被取代),逐渐发展
2018年AI普惠,区块链,生化芯片等处于热潮
知识图谱未来对机器学习可能有很大推动
技术不断创新,树立全局观

从技术创新长波理论看新一代信息技术

IT正在颠覆传统行业
能力 应用 成本 是IT发展的3大目标
追求能力的提高,迫切要求应用的广度、深度,成本的要求

摩尔定律:晶体管数量每18-24月增长一倍
梅特卡夫定律:网络价值随用户数量的平方数而增加(用的人越多价值越高-流量)
贝尔定律:计算机每10年更新一代,面向新应用,价格更低
香农定理:信道最大传输速率与?的关系==?==

早期面向能力和成本
“注意力的经济” 互联网商业价值开始体现
Backrub→Google
后摩尔时代:①质变:改进/替换图灵机、冯诺依曼结构……量子计算机、类脑芯片…… ②量变引起质变:资源聚合,云计算、泛互联网……
梅特卡夫定律和贝尔定律成为主导,取代摩尔定律和香农定理
未来形成 新平台、新模式、新思维
互联网+移动互联网(人)+物联网(物)
开源机器学习平台 tensorflow …
量子计算机,类脑计算机(比特大陆)
人类智能 vs 人工智能 差距仍然很大

符号主义 逻辑推理
连接主义 神经网络、深度学习
行为主义
小样本学习,基于贝叶斯程序学习等概率学习方法,应该是下一代人工智能的重要方向

深度学习探索we don’t know what we known
传统算法总结 we know what we know
情感、意识的深度学习模拟 we know what we unknown 脑科学继续探索

大数据是新一代信息技术的业务引擎

《大数据时代》
数据产生方式:运营式系统数据(数据仓库,知识系统)+用户原创数据(Web2.0 带动大数据e.g. Hadoop发展)+感知式系统数据(物理世界-互联网)
数据资源:可再生,待挖掘

特点

  1. 数据量巨大
    且增长迅速
  2. 数据类型繁多
    10%结构化数据,存储在数据库中
    90%非/半结构化数据,与人类信息密切相关 e.g.简历=半结构化数据
    e.g. 结构化数据 远程监督学习 类自然语言中挖掘信息 ?互补
  3. 数据处理速度快,价值密度低
    时间窗口变小,仅在极短时间内具有价值 - 密度低
  4. 数据不确定性
    e.g. 自动驾驶:①先检测车辆、行人,再规划路径,再控制方向②端到端学习将视频、雷达、激光测距都丢给学习算法,直接控制方向 但是干扰因素很多,小的扰动就会造成波动-深度学习的模式规律难以总结

应用

Jim Gary 实验归纳→模型推演(公理)→仿真模拟(理论指导下 计算机)→数据密集型科学发现(没有明确目标,从中总结)

  • 描述性分析
  • 预测性分析 pattern?套用
  • 规范性分析 优化/决策

e.g. 银行客户保留 根据描述性分析的结果,不正常行为的pattern,进行预测性分析,采取关系策略
仅进行数据分析是不能产生价值的,要将分析结果应用于现实~
e.g. 微软城市计算 高维数据,速度块,稀疏性→分析城市道路网中的不合理规划,划分城市功能区域,连锁店布局,出租车扒活/拼车,自行车空气质量细粒度检测……
e.g. 医疗领域的发展前景最优 患者相似性分析→疾病特征
e.g. OpenAI

风险

  • 大数据有预测失误
    e.g. Google 流感预测-依赖搜索 效果不佳
  • 数据可能说谎
    e.g. 飓风前夜 - 食品大量采购 推特数最多 - 飓风中心?wrong!
    产生数据的可能是特权阶层
  • 盲点
    自主智能系统无法找到真正能评估其持续性影响的方法
    与训练集有关
    e.g. Uber L4自动驾驶车辆车祸致人死亡
  • 偏见
    e.g. 面部图像自动犯罪概率推断

技术挑战

  1. Raw data
  2. 关联 不等于 因果
  3. 弱智能:不同数据集、不同特征集合、不同应用领域迁移的问题
  4. 理解性(可解释性)差:图片加扰动可以大幅影响结果
  5. 可拓展性差:算法、数据、算力 推动AI发展的3大动力 AI算力每3.43个月需求增长一倍(超过摩尔定律)∴深度神经网络精确度接近饱和,每增长一点对算力的要求提高很多,投入产出比很低,应该考虑3个主义中的行为主义?

大数据平台的挑战

大数据平台

数据量大,数据模型规模(参数)大
Big Data, Big Model and Big System

层次

操作框架
数据集成
数据分析
计算框架//资源管理器&?
数据存储//
文件系统

大数据系统中算法只占核心一小部分,依赖数据收集、可视化、机器资源管理、存储……

Fine Lab
重点讲计算框架和数据存储

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值