cloudera
文章平均质量分 88
vinfly_li
这个作者很懒,什么都没留下…
展开
-
Spark基础全解析
SPARK全解析标签(空格分隔): SparkSPARK全解析Spark是什么?Spark 源码编译Spark本地模式安装配置及Spark Shell基本使用Spark集群Spark Application开发、运行及监控(IDEA)Spark 日志监控(HistoryServer)配置Spark RDDSpark共享变量Spark 内核Spark 依赖Spa...原创 2018-02-28 10:05:32 · 23915 阅读 · 0 评论 -
Apache Beam指南
Apache Beam标签(空格分隔): Hadoop1. What is Beam ?前世今生:诞生背景: 分布式数据处理发展迅猛 –> 新的分布式数据处理技术越来越多 –> Hadoop MapReduce,Apache Spark,Apache Storm,Apache Flink,Apache Apex –> 新技术高性能 , 受欢迎,人们喜...原创 2018-02-28 10:12:37 · 13322 阅读 · 2 评论 -
Flume指南
Flume基础标签(空格分隔): FlumeFlume概述Flume是一个分布式的,可靠的,可用的,非常有效率的对大数据量的日志数据进行收集,聚集,移动信息的服务,Flume仅仅运行在linux环境下,它是一个基于流式的数据的灵活的架构,具有健壮和容错性,官网中这样解释健壮和容错: The events are staged in a channel on each agen...原创 2018-02-28 10:15:51 · 1265 阅读 · 0 评论 -
Flume + Kafka + TridentStorm + Hbase项目实战
Flume + Kafka + TridentStorm + Hbase项目实战版权声明:禁止转载,转载必究 标签(空格分隔): Storm项目Write by Vin1,项目简介项目名称:基于Storm开发实现的实时网站流量统计 项目需求:通过Storm分析业务系统产生的网站访问日志数据,实时的统计出各种PV,包括: 每个URL单独的PV 网站外链...原创 2018-02-28 10:21:10 · 1708 阅读 · 0 评论 -
Hive基础指南
Hive指南标签(空格分隔): HiveHIVE基本介绍Hive是由FaceBook开源的用于解决海量结构化日志的数据统计,后成为Apache Hive的一个开源项目,Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类SQL(也成为HQL)查询功能,它的本质是将HQL转化为MapReduce程序,灵活性和扩展性比较好,支持自定义函数(UDF)...原创 2018-02-28 10:23:45 · 681 阅读 · 0 评论 -
Kafka全解析
kafka标签(空格分隔): Kafka一. ConceptsKafka is used for building real-time data pipelines and streaming apps分布式消息传递网站活跃数据跟踪日志聚合流式数据处理数据存储事件源……Kafka terminology 术语1.TopicsKafka...原创 2018-02-28 10:28:22 · 47548 阅读 · 10 评论 -
Spark开发性能调优
Spark开发性能调优标签(空格分隔): Spark–Write By Vin1. 分配资源调优Spark性能调优的王道就是分配资源,即增加和分配更多的资源对性能速度的提升是显而易见的,基本上,在一定范围之内,增加资源与性能的提升是成正比的,当公司资源有限,能分配的资源达到顶峰之后,那么才去考虑做其他的调优如何分配及分配哪些资源在生产环境中,提交spark作业时...原创 2018-03-01 17:26:44 · 17358 阅读 · 6 评论