主要记录阅读《从0开始学大数据》课程的学习笔记。课程系统性的介绍大数据的发展史、大数据系统的原理及架构、大数据生态体系中的主要产品、如何进行呢大数据开发实践、大数据平台开发及系统集成、使用大数据平台进行分析和运营、大数据的算法等。比较适合进行系统性的学习实践,能够较为深入的理解大数据相关技术。
接上一篇笔记:
读《从0开始学大数据》-- 学习笔记和感想随笔(一)
大数据平台与系统集成
26 | 互联网产品 + 大数据产品 = 大数据平台
数据采集
- Sqoop \ Flume \ Kafka 日志 数据爬虫
数据处理
- 离线 在线
数据输出与展示
- Sqoop 运营系统
调度: Oozie
Lambda 架构 :
newdata - batch layer -> serving layer query
speed layer query
如何开展工作:
资源申请、团队组织、跨部门协调、架构设计、开发进度、推广实施等
27 | 大数据从哪里来?
从数据库导入
- Sqoop 批量 Canal 实时导出
从日志文件导入
- Flume
前端埋点采集
- 最好有专人来统一负责数据采集的规划和需求工作
爬虫系统
- 应对反爬虫技术
28 | 知名大厂如何搭建大数据平台?
淘宝的大数据平台基本也是分成三个部分,上面是数据源与数据同步;中间是云梯 1,也就是淘宝的 Hadoop 大数据集群;下面是大数据的应用,使用大数据集群的计算结果。
美团大数据平台
滴滴大数据平台
腾讯大数据平台
29 | 盘点可供中小企业参考的商业大数据平台
大数据解决方案提供商
Cloudera CDH :
系统集成, 大数据存储,统一服务, 过程、分析与计算
国内 星环科技
大数据云计算服务商
微软、亚马逊、 阿里云
大数据SaaS 服务商
友盟 、神策、百度统计
大数据开放平台
中国气象局–历史天气
中国人民银行-- 客户征信数据
阿里巴巴-- 电子商务数据
风控大数据平台
30 | 当大数据遇上物联网
某位互联网大佬说过,未来20年最有发展潜力的三项技术分别是:区块链、人工智能、物联网
物联网应用场景分析
智能家居
车联网
农业领域
物联网平台架构
终端传感器与智能设备
智能网关(边缘计算)
物联网大数据平台
物联网应用程序
大数据技术在物联网中的应用
大数据的存储和计算
边缘计算管理
1. 智能网关通过消息队列将数据上传到物联网大数据平台,Storm 等流式计算引擎从消息队列获取数据,对数据的处理分三个方面。
a. 数据进行清理转换后写入到大数据存储系统。
b. 调用规则和机器学习模型,对上传数据进行计算,如果触发了某种执行规则,就将控制信息通过设备管理服务器下发给智能网关,并进一步控制终端智能设备。
c. 将实时统计信息和应用程序监听的数据发送给应用程序设备,供使用者查看管理。
2.Spark 等离线计算引擎定时对写入存储系统的数据进行批量计算处理,进行全量统计分析和机器学习,并更新机器学习模型。
3. 应用程序也可以通过设备管理服务器直接发送控制指令给智能网关,控制终端智能设备。
这样就构成一个典型的物联网“端 - 云 - 端”架构,其中两个端分别是传感器与智能设备端,以及应用程序设备端,而云则是大数据云计算平台。
31 | 模块答疑:为什么大数据平台至关重要?
大数据平台将互联网应用和大数据产品整合起来,构建成一个完整的系统,将实时数据和离线数据打通,使数据可以实现更大规模的关联计算,挖掘出数据更大的价值,从而实现数据驱动业务,通过数据统计发现业务规律(也就是机器学习模型)。而利用这个规律对未来的数据进行分类和预测,使系统呈现出智能的特性,也为互联网未来发展和人类的生产生活创造了无限可能。
大数据平台将互联网应用和大数据产品整合起来,一方面使互联网应用变得更加智能、强大;一方面也使得大数据产品实现技术落地。技术不同于科学,科学拓展人类的认知边界,而技术是人们改造世界的工具,科学的成果可以转化为技术;而技术真正能够改造世界,需要技术落地,真正应用到生产过程中。
大数据分析与运营
32 | 互联网运营数据指标与可视化监控
从公司角度看,运营数据是公司运行发展的管理基础,既可以通过运营数据了解公司目前发展的状况,又可以通过调节这些指标对公司进行管理,即数据驱动运营。
- 互联网运营常用数据指标
新增用户数
用户留存率
活跃用户数
PV
GMV
转化率 - 数据可视化图表与数据监控 ECharts
折线图
散点图
热力图
漏斗图 - 监控大屏 显示运营指标和实时的业务情况
33 | 一个电商网站订单下降的数据分析案例
- 数据分析案例
订单下降 转化率分析 用户咨询转化率下降 新用户咨询量0 程序bug导致新用户咨询异常 - 数据分析方法
金字塔分析方法 – 思维导图
34 | A/B测试与灰度发布必知必会
A/B测试是更精细化的数据运营手段,通过A/B测试实现数据驱动运营,驱动产品设计,是大数据从幕后走向台前的重要一步
35 | 如何利用大数据成为“增长黑客”?
- Hotmail 的增长黑客故事 拼多多的用户增长
- AARRR 用户增长模型
获取用户 Acquisition
提高活跃度 Activation
提高留存率 Retention
获取收入 Revenue
自传播 Refer - 利用大数据增长用户数量
利用用户画像进行精准广告投放
通过用户分析挽回用户
A/B测试决定产品功能
大数据反欺诈、反羊毛
用户生命周期管理
36 | 模块答疑:为什么说数据驱动运营?
大数据的核心就是数据本身
业务价值预估 – 开发上线 – 指标持续监控 分析 — 持续改进
我们学大数据,手里用的是技术,眼里要看到数据,要让数据为你所用。数据才是核心才是不可代替的,技术并不是。
了解大数据技术原理和知识体系
分布式系统相关理论
看源码学习
大数据算法
37 | 如何对数据进行分类和预测?
- KNN分类算法
- 步骤
计算待分类数据与每个训练样本之间的距离
对距离排序,取距离最近的前K个训练样本
统计前K个训练样本的类别
统计得到最多的类别为待分类数据的类别 - 数据的距离
欧式距离
余弦距离 相似度计算 0~1 - 文本的特征值
TF 词频 某个词在文档中出现的次数/文档总词数
IDF 逆文档频率 log(所有的文档总数/出现该词的文档数)
TF-IDF = TF * IDF 提取关键词 - 贝叶斯分类
条件概率
- 步骤
38 | 如何发掘数据之间的关系?
- 搜索排序
pagerank 算法 - 关联分析
支持度
置信度
Apriori算法
第 1 步:设置最小支持度阈值。
第 2 步:寻找满足最小支持度的单件商品,也就是单件商品出现在所有订单中的概率不低于最小支持度。
第 3 步:从第 2 步找到的所有满足最小支持度的单件商品中,进行两两组合,寻找满足最小支持度的两件商品组合,也就是两件商品出现在同一个订单中概率不低于最小支持度。
第 4 步:从第 3 步找到的所有满足最小支持度的两件商品,以及第 2 步找到的满足最小支持度的单件商品进行组合,寻找满足最小支持度的三件商品组合。
第 5 步:以此类推,找到所有满足最小支持度的商品组合。 - 聚类
K-means
第 1 步:随机在图中取 K 个种子点,图中 K=2,即图中的实心小圆点。
第 2 步:求图中所有点到这 K 个种子点的距离,假如一个点离种子点 X 最近,那么这个点属于 X 点群。在图中,可以看到 A、B 属于上方的种子点,C、D、E 属于中部的种子点。
第 3 步:对已经分好组的两组数据,分别求其中心点。对于图中二维平面上的数据,求中心点最简单暴力的算法就是对当前同一个分组中所有点的 X 坐标和 Y 坐标分别求平均值,得到的 就是中心点。
第 4 步:重复第 2 步和第 3 步,直到每个分组的中心点不再移动。这时候,距每个中心点最近的点数据聚类为同一组数据。
39 | 如何预测用户的喜好?
基于人口统计的推荐
用户群分类一致 则给新增用户推荐同样的商品
基于商品属性的推荐
商品类别一致, 则推荐同类的商品
基于用户的协同过滤推荐
用户群一致 ,给新增用户推荐用户群喜欢的商品
基于商品的协同过滤推荐
根据用户的喜好对商品进行分类,如果两个商品,喜欢它们的用户具有较高的重叠性,就认为它们的距离相近,划分为同类商品,然后进行推荐。
40 | 机器学习的数学原理是什么?
所谓的人工智能,在技术层面很多时候就是指机器学习,通过选择特定的算法对样本数据进行计算,获得一个计算模型,并利用这个模型,对以前未曾见过的数据进行预测。如果这个预测在一定程度上和事实相符,我们就认为机器像人一样具有某种智能,即人工智能。
样本
模型
算法
损失函数 过拟合
各种有样本的机器学习算法基本上都是在各种模型的假设空间上求解结构风险最小值的过程
41 | 从感知机到神经网络算法
感知机
二分类模型
神经网络
42 | 模块答疑:软件工程师如何进入人工智能领域?
数学基础
机器学习算法
大数据技术与机器学习框架
人工智能应用
所有的不确定都是机会——智慧写给你的新年寄语
结束语 | 未来的你,有无限可能
结课测试 | 这些大数据的知识你都掌握了吗?
90 错了两题 TF-IDF 看选项理解不到位