Hadoop(2)

最新推荐文章于 2024-08-08 10:34:27 发布

lvpeng笨笨

最新推荐文章于 2024-08-08 10:34:27 发布

阅读量178

点赞数

分类专栏： Big Data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lvpeng88/article/details/102696621

版权

Big Data 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

Hadoop（2）

分布式
存储和运算框架
大数据的具体应用
hadoop中有3个核心组件：
hdfs：分布式文件系统
hdfs的工作机制：
友盟+

分布式

处理海量数据的核心技术：
海量数据存储：分布式
海量数据运算：分布式
分布式操作系统：底层是集群做存储计算任务，但是展现给用户时，会有一层分装，
用户感知到的就是普通的操作系统

存储和运算框架

存储框架：
HDFS——分布式文件存储系统（文件）
HBASE——分布式数据库系统（表，记录）（对HDFS的再封装）
KAFKA——分布式消息缓存系统（消息）(实时流式数据处理)

运算框架：（要解决的核心问题就是帮用户将处理逻辑在很多机器上并行）
MAPREDUCE—— 离线批处理/HADOOP中的运算框架（离线）
SPARK —— 离线批处理/实时流式计算
STORM —— 实时流式计算（流式）

辅助类的工具：（解放大数据工程师的一些繁琐工作）：
HIVE —— 数据仓库工具：可以接收sql，翻译成mapreduce或者spark程序运行
FLUME——数据采集
SQOOP——数据迁移
ELASTIC SEARCH —— 分布式的搜索引擎

大数据的具体应用

数据处理的最典型应用：公司的产品运营情况分析
例如：友盟+，国内第三方全域数据服务商。

电商推荐系统：基于海量的浏览行为、购物行为数据，进行大量的算法模型的运算，得出各类推荐结论，以供电商网站页面来为用户进行商品推荐

精准广告推送系统：基于海量的互联网用户的各类数据，统计分析，进行用户画像（得到用户的各种属性标签），然后可以为广告主进行有针对性的精准的广告投放

hadoop中有3个核心组件：

分布式文件系统：HDFS —— 实现将文件分布式存储在很多的服务器上
分布式运算编程框架：MAPREDUCE —— 实现在很多机器上分布式并行运算
分布式资源调度平台：YARN —— 帮用户调度大量的mapreduce程序，并合理分配运算资源

hdfs：分布式文件系统

hdfs有着文件系统共同的特征：
1、有目录结构，顶层目录是： /
2、系统中存放的就是文件
3、系统可以提供对文件的：创建、删除、修改、查看、移动等功能

hdfs跟普通的单机文件系统有区别：
1、单机文件系统中存放的文件，是在一台机器的操作系统中，而hdfs的文件系统会横跨N多的机器。
2、单机文件系统中存放的文件，是在一台机器的磁盘上，而hdfs文件系统中存放的文件，是落在n多机器的本地单机文件系统中（hdfs是一个基于linux本地文件系统之上的文件系统）

hdfs的工作机制：

1、客户把一个文件存入hdfs，其实hdfs会把这个文件切块后，分散存储在N台linux机器系统中（负责存储文件块的角色：data node）<准确来说：切块的行为是由客户端决定的>

2、一旦文件被切块存储，那么，hdfs中就必须有一个机制，来记录用户的每一个文件的切块信息，及每一块的具体存储机器（负责记录块信息的角色是：name node）

3、为了保证数据的安全性，hdfs可以将每一个文件块在集群中存放多个副本（到底存几个副本，是由当时存入该文件的客户端指定的）

在这里插入图片描述

友盟+

B栈学习视频链接添加链接描述
友盟+是第三方全域数据服务商
通过嵌入到APP中的SDK，在事件（启动，）被触发的时候，调用SDK接口，采集应用相关事件的数据和设备信息，再传给服务端进行统计。

FICO（费埃哲），一家美国金融科技公司。
主要业务除了风控决策，FICO决策引擎还应用于用户账户管理、反欺诈、市场营销、催收等场景。
二分类模型（判断性别）
判断pc端web应用类别（1、用正则表达式处理url规则。2、通过标题正文建立模型）
判断app应用类别（通过app类别，使用分类模型）
同一用户，不同设备，如何打通数据。（ip信息，用户行为信息）
用户行为数据应用系统架构

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。