![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
指尖跳动
不忘初心,方能始终!
展开
-
认识Hive
什么是Hive: Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类SQL类查询功能。 Hive的认识: * Hive基于: 1):处理的数据储存在HDFS 2):分析数据底层的实现MapReduce 3):执行程序运行的YARN * 构建在Hadoop之上的数据仓库: 1)原创 2017-10-13 21:55:33 · 346 阅读 · 0 评论 -
Hive搭建(认识Hive)
Hive环境搭建:注意事项; 因为是Hive,他是基于Hadoop之上,所以我们在Hive基本的环境搭建中, 需要配置一台Hadoop伪分布式。。 1):安装 解压安装(需要多次安装) tar -zxvf ./apache-hive-0.13.1-bin.tar.gz -C /opt/install/ 1.1)、yum命令安装(一次性安装即可)原创 2017-10-13 21:57:13 · 410 阅读 · 0 评论 -
Kafka认识
1):Apache kafka介绍及架构详解假设一个场景: 数据源: 应用系统A 产生的用户访问数据和订单数据 10000 条一秒钟 push:推送数据 消息系统:队列 产生的数据量>数据量 pusll:拉取数据原创 2017-10-13 22:01:00 · 286 阅读 · 0 评论 -
Spark(黑名单过滤)
11.transform以及广告计费日志实时黑名单过滤案例实战 最近看见一个Spark实战,用window做的,挺不错的! transform操作,应用在DStream上时,可以用于执行任意的RDD到RDD的转换操作。 它可以用于实现,DStream API中所有没有提供的操作。比如说,DStream API中,并没有提供 将一个DStream中的么个batch,与一个特定的RDD进行join的原创 2017-10-13 22:06:53 · 2538 阅读 · 0 评论