人工智能与大数据技术导论-13011知识点记录_13011人工智能与大数据技术导论

本文介绍了大数据平台技术,包括数据采集、存储、流转、加工的底层技术,强调数据平台的作用、设计原则及数据建模。接着探讨了机器学习的基本概念、数据预处理的重要性,涉及数据清洗、特征工程等。最后提到了模型概念、训练方法、模型评估与改进,以及深度学习中的卷积神经网络。
摘要由CSDN通过智能技术生成

大数据平台技术:数据的采集、存储、流转、加工所需要的底层技术。
大数据应用技术:对数据进行加工,把数据转化成商业价值的技术,如算法,以及由算法衍生出来的模型、引擎、接口、产品等。
3.5、数据平台
3.5.1 作用:一个数据平台的出现不仅可以承担数据分析的压力,还可以对业务数据进行整合,从而从不同程度上提供数据处理的性能,基于数据平台实现更丰富的功能需求。
3.5.2 设计原则: p89
(1)数据集中和共享;
(2)数据标准统一;
(3)数据管理策略统一;
(4)减少数据复制;
(5)长期和短期相结合;
3.5.3 数据存储和计算
(1)常规数据仓库
(2)MPP(大规模并行处理)架构
(3)Hadoop分布式系统架构
3.5.4 数据建模:数据模型至少应包含:
(1)数据元(属性)定义;(2)数据类(对象)定义; (3)主数据管理;
3.5.5 数据目录:
(1)数据连接和发现的能力
(2)元数管理能力:
(3)检索筛选和用户自组织能力
(4)安全和共享能力
3.5.6 数据安全管控
(1)应用安全;(2)数据安全;(3)主机安全;(4) 网络安全; (5)物理安全;
3.5.7 数据准备-ETL
(1)数据清洗(Extract):数据补缺、数据替换、格式规范化、主外键约束;
(2)数据转换(Transform): 数据合并、拆分、行列互换、数据验证
(3)数据加载(Load): 时间戳、日志表、全表对比、全表删除插入方式
3.5.8 数据平台总结
大数据平台实现数据的分层与水平解耦,沉淀公共的数据能力。分为三层:数据模型(技术)、数据服务和数据开发,通过数据建模实现跨域数据的整合和知识沉淀,通过数据服务实现对于数据的封装和开发,快速、灵活地满足上层应用的要求,通过数据开发工具满足个性化数据和应用的需要。

第4章“机器学习”

需要掌握:机器学习基本概念;数据预处理。
4.1、机器学习基本概念
1.1 概念:让机器从大量样本数据中自动学习其规则,并根据学习到的规则预测未知数据的过程。
1.2 本质:输入到输出的映射。类似人脑思考,机器经过大量样本的训练,获得了一定的经验(模型),从而产生了能够推测(推断或推理)新的事物的能力。
1.3 几个重要的术语:
(1) 数据集 - dataSet :样本数据,包含训练集、验证集、测试集
训练集:用于训练模型,确定模型中的参数;
验证集:用于模型的选择和优化;
测试集:用于对已经训练

  • 14
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值