自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 资源 (1)
  • 收藏
  • 关注

原创 storm_入门02学习笔记----【storm原理、storm整个hdfs和mysql、storm定时器使用、日志监控告警项目的流程和业务处理逻辑】

storm_入门02学习笔记1、目标1、掌握storm任务提交和执行过程2、掌握storm整合hdfs和mysql3、掌握storm定时器使用4、掌握日志监控告警项目的流程和业务处理逻辑2、storm内部原理和任务提交(1)客户端提交topology到nimbus主节点(2)nimbus主节点接受到客户端的任务信息,然后保存到本地目录,后期把任务的分配信息写入到zk集群中...

2018-12-14 21:23:32 594

原创 storm_入门01学习笔记----【storm集群搭建、一键脚本启动关闭storm、storm与kafka整合】

storm_day01学习笔记1、目标1、熟悉storm的相关概念2、掌握搭建一个storm集群3、掌握编写简单的storm应用程序4、掌握storm的并行度设置5、掌握storm的数据分发策略6、掌握storm与kafka整合2、storm概述2.1 storm是什么storm是由twitter公司开源,捐献apache基金会,是一个实时处理框架。storm特点:来一条...

2018-12-12 22:02:26 1816

原创 Hbase入门----【hbase内部原理和架构(★★★★★)、掌握hbase的寻址机制(★★★★★)、hbase表中的rowkey设计(★★★★★★★)】

hbase入门学习笔记1、目标1、掌握hbase相关概念2、掌握搭建一个hbase集群3、掌握hbase shell 命令行操作4、掌握hbase内部原理和架构(★★★★★)5、掌握hbase的寻址机制(★★★★★)6、掌握hbase表中的rowkey设计(★★★★★★★)2、hbase概述2.1 hbase是什么​ hbase是基于hdfs进行数据的分布式存储,具有高可...

2018-12-09 21:44:05 869

原创 大数据实时阶段----【Spark04之sparkStreaming整合flume、sparkStreaming整合kafka (★★★★★)】

typora-copy-images-to: img_spark04typora-root-url: img_spark04spark_入门04学习笔记1、目标1、掌握sparkStreaming原理和架构2、掌握DStream常用的操作3、掌握sparkStreaming整合flume4、掌握sparkStreaming整合kafka (★★★★★)2、sparkStrea...

2018-12-07 16:40:07 582

原创 kafka入门

kafka入门学习笔记1、目标1、掌握kafka相关概念2、掌握搭建一个kafka集群3、掌握kafka生产者和消费者代码开发4、掌握kafka的分区策略5、掌握kafka整合flume6、掌握kafka如何保证消息不丢失2、kafka概述2.1 kafka是什么kafka是由linkedin开源,捐献apache基金会,它是一个实时的分布式消息队列。它提供了一个对于实时...

2018-12-06 22:48:13 707

原创 kafka_Manager监控工具的安装与作用

kafka Manager监控工具的安装与使用第一步:上传kafkaManager的压缩包将我们kafkaManager的压缩包上传到我们kafka集群的任意一台机器即可第二步:修改kafkaManager的配置文件vim application.conf更改一配置文件 kafka-manager.zkhosts,修改为我们的zookeeper的地址即可kafka-manager....

2018-12-05 23:09:02 1272

原创 kafka的文件存储机制

kafka的文件存储机制1、概述同一个topic下有多个不同的partition,每个partition为一个目录,partition命名的规则是topic的名称加上一个序号,序号从0开始。每一个partition目录下的文件被平均切割成大小相等(默认一个文件是1G,可以手动去设置)的数据文件,每一个数据文件都被称为一个段(segment file),但每个段消息数量不一定相等,这种...

2018-12-05 23:02:42 1198

原创 kafka为什么那么快

Kafka为什么那么快Broker​ 不同于Redis和MemcacheQ等内存消息队列,Kafka的设计是把所有的Message都要写入速度低容量大的硬盘,以此来换取更强的存储能力。实际上,Kafka使用硬盘并没有带来过多的性能损失,“规规矩矩”的抄了一条“近道”。​ 首先,说“规规矩矩”是因为Kafka在磁盘上只做Sequence I/O,由于消息系统读写的特殊性,这并不存在什么问题。关...

2018-12-05 22:58:22 290

原创 Spark----【spark on yarn】

Spark on Yarn1. 官方文档http://spark.apache.org/docs/latest/running-on-yarn.html2. 配置安装1.安装hadoop:需要安装HDFS模块和YARN模块,HDFS必须安装,spark运行时要把jar包存放到HDFS上。2.安装Spark:解压Spark安装程序到一台服务器上,修改spark-env.sh配置文件,spa...

2018-12-04 23:15:40 228

原创 大数据实时阶段----【Spark03之dataFrame、dataSet、schema】

spark_入门03学习笔记1、目标1、掌握sparksql底层原理2、掌握DataFrame和DataSet数据结构和使用方式3、掌握通过sparksql来进行代码开发2、sparksql概述2.1 sparksql前世今生shark它是专门为spark设计的大规模数据仓库系统shark依赖于hive的代码,同时也依赖spark版本后期发现hive的mapre...

2018-12-04 17:46:24 1324

原创 大数据实时阶段----【Spark02之ip地址查询、topN、PV、UV实战】

spark02_学习笔记1、目标1、掌握RDD的底层原理2、掌握RDD的常用的算子操作3、掌握RDD的宽窄依赖4、掌握RDD的缓存机制5、掌握划分stage6、掌握spark任务运行架构和调度流程2、RDD概述2.1 什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区...

2018-12-03 21:39:53 1150

原创 sparkRDD函数详解

1. RDD操作详解启动spark-shellspark-shell --master spark://node-1:70771.1 基本转换1) map​ map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。 任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。举例:scala> val a = sc.parallelize(1 to 9, 3)...

2018-12-02 22:56:17 789

原创 大数据实时阶段----【Spark01】

spark_01学习笔记1、目标1、掌握spark相关概念2、掌握搭建一个spark集群3、掌握编写简单的spark应用程序2、spark概述2.1 什么是sparkApache Spark™ is a unified analytics engine for large-scale data processing.apache的spark是一个针对于大规模...

2018-12-01 16:50:32 605

连接虚拟机常用的工具CRT软件包

该软件是连接虚拟机的一款较为好用的软件 , 他可以多窗口开启,也可以实现批处理,个人觉得非常好用

2018-11-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除