大数据开发
文章平均质量分 67
Running_Tiger
这个作者很懒,什么都没留下…
展开
-
HDFS入门之基本概念
HDFS入门之基本概念1. HDFS介绍HDFS 是 Hadoop Distribute File System 的简称,意为:Hadoop 分布式文件系统。是 Hadoop 核心组件之一,作为最底层的分布式存储服务而存在。分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。分布式文件系统在大数据时代有着广泛的应用前景,它们为存储和处理超大规模数据提供所需的扩展能力。原创 2018-01-31 14:48:47 · 9548 阅读 · 0 评论 -
storm与kafka集成
storm与kafka集成本案例storm使用1.1.1版本kafka使用2.11版本1.创建工程并导入依赖 <dependencies> <dependency> <groupId>org.apache.storm</groupId> <artifactId>storm-kafka-client</artifactId>原创 2018-02-27 11:22:54 · 5630 阅读 · 3 评论 -
storm实时看板案例
storm实时看板案例1.项目需求根据订单mq,快速计算购物网站当天的订单量、销售金额。2.项目架构模型支付系统+kafka+storm/Jstorm集群+redis集群支付系统发送mq到kafka集群中,编写storm程序消费kafka的数据并计算实时的订单数量、订单数量将计算的实时结果保存在redis中外部程序访问redis的数据实时展示结果3.订单数据模型订单编号、订单时间、支付编号、原创 2018-02-27 15:24:22 · 2325 阅读 · 0 评论 -
数据可视化
数据可视化(一)1. Echarts 介绍ECharts 是一款由百度前端技术部开发的,基于 Javascript 的数据可视化图表库,提供直观,生动,可交互,可个性化定制的数据可视化图表。提供大量常用的 数据可视化图表,底层基于ZRender (一个全新的轻量级canvas类库),创建了坐标系,图例,提示,工具箱等基础组件,并在此上构建出折线图(区域图)、柱状图(条状图)、散点图(气泡图)、饼图原创 2018-02-08 11:12:53 · 568 阅读 · 0 评论 -
Phoenix概述
Phoenix简介1、Phoenix简介phoenix,中文译为“凤凰”,很美的名字。Phoenix是由saleforce.com开源的一个项目,后又捐给了Apache基金会。它相当于一个Java中间件,提供jdbc连接,操作hbase数据表。Phoenix是一个HBase的开源SQL引擎。你可以使用标准的JDBC API代替HBase客户端API来创建表,插入数据,查询你的HBase数据。Phoe原创 2018-03-16 23:06:36 · 955 阅读 · 0 评论 -
Phoenix安装部署
Phoenix安装部署1、环境搭建提前安装好ZK集群、hadoop集群、Hbase集群2、安装包从对应的地址下载:http://mirrors.cnnic.cn/apache/phoenix/ 这里我们使用的是: phoenix-4.8.2-HBase-1.2-bin.tar.gz3、上传、解压将对应的安装包上传到对应的Hbase集群其中一个服务器的一个目录下 解压:tar -zxvf pho原创 2018-03-16 23:44:27 · 536 阅读 · 0 评论 -
Kafka集群部署
Kafka集群部署1.集群部署基本流程下载安装包解压安装包修改配置文件分发安装包启动集群2.下载安装包http://kafka.apache.org/downloads 在linux中使用wget命令下载安装包wget https://www.apache.org/dyn/closer.cgi?path=/kafka/1.0.0/kafka_2.11-1.0.0.tgz3.解压安装包t原创 2018-02-25 16:47:10 · 227 阅读 · 0 评论 -
kafka的API及自定义分区
kafka的API及自定义分区1.导入kafka的依赖 <dependencies> <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients</artifactId> <version>0.11.0.1</vers原创 2018-02-25 17:49:44 · 1709 阅读 · 0 评论 -
flume与kafka整合
flume与kafka整合实现flume监控某个目录下面的所有文件,然后将文件收集发送到kafka消息系统中。flume老版本用a1.sinks.k1.brokerList 本案例用flume1.81.配置flume-kafka.conf创建flume收集文件夹mkdir -p /export/data/flumedataa1.sources = r1a1.channels = c1a1.si原创 2018-02-25 20:36:24 · 300 阅读 · 0 评论 -
kafka Manager监控工具的安装与使用
kafka Manager监控工具的安装与使用1.上传kafkaManager的压缩包将我们kafkaManager的压缩包上传到我们kafka集群的任意一台机器即可unzip kafka-manager-1.3.3.7.zip -d /export/servers/2. 修改kafkaManager的配置文件vim application.confkafka-manager.zkhosts="n原创 2018-02-25 21:22:40 · 2443 阅读 · 2 评论 -
kafka与传统消息系统的区别
kafka与传统消息系统的区别1.架构模型方面RabbitMQ遵循AMQP协议,RabbitMQ的brokerExchange,Binding,queue组成,其中exchange和binding组成了消息的路由键;客户端Producer通过连接channel和server进行通信,Consumer从queue获取消息进行消费(长连接,queue有消息会推送到consumer端,consumer循环原创 2018-02-25 21:48:07 · 2937 阅读 · 0 评论 -
kafka的架构模型
kafka的架构模型基于producer consumer topic broker 等的一个基本架构喜欢就点赞评论+关注吧感谢阅读,希望能帮助到大家,谢谢大家的支持!原创 2018-02-25 21:57:50 · 561 阅读 · 0 评论 -
kafka的组件介绍
kafka的组件介绍Topic :消息根据Topic进行归类Producer:发送消息者Consumer:消息接受者broker:每个kafka实例(server) Zookeeper:依赖集群保存meta信息。1.Topics组件介绍Topic:一类消息,每个topic将被分成多个partition(区),在集群的配置文件中配置。 partition:在存储层面是逻辑append l原创 2018-02-25 22:07:52 · 6358 阅读 · 1 评论 -
kafka如何保证数据的不丢失
kafka如何保证数据的不丢失1.生产者数据的不丢失kafka的ack机制:在kafka发送数据的时候,每次发送消息都会有一个确认反馈机制,确保消息正常的能够被收到。如果是同步模式:ack机制能够保证数据的不丢失,如果ack设置为0,风险很大,一般不建议设置为0producer.type=sync request.required.acks=1如果是异步模式:通过buffer来进行控制数据的原创 2018-02-25 23:59:07 · 16670 阅读 · 2 评论 -
storm入门程序单词计数
storm入门程序单词计数1.创建maven,java工程导入依赖<dependencies> <dependency> <groupId>org.apache.storm</groupId> <artifactId>storm-core</arti...原创 2018-02-26 22:20:25 · 409 阅读 · 0 评论 -
storm的并行度
storm的并行度config.setNumWorkers(1);topologyBuilder.setSpout("mySpout", new RandomSpout(),3);topologyBuilder.setBolt("splitBolt", new SplitBolt(),3).shuffleGrouping("mySpout");topologyBuilder.setBolt("原创 2018-02-26 22:07:13 · 257 阅读 · 0 评论 -
HDFS入门之HDFS重要特性
HDFS入门之HDFS重要特性首先,它是一个文件系统,用于存储文件,通过统一的命名空间目录树来定位文件; 其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。1. master/slave架构HDFS 采用 master/slave 架构。一般一个 HDFS 集群是有一个 Namenode 和一定数目的 Datanode 组成。Namenode 是 HDFS 集群主节点原创 2018-01-31 14:59:42 · 10474 阅读 · 0 评论 -
HDFS入门之Shell基本操作
HDFS入门之Shell基本操作1. Shell 命令行客户端Hadoop 提供了文件系统的 shell 命令行客户端2.Shell 命令选项3.Shell 常用命令介绍原创 2018-01-31 16:16:02 · 9920 阅读 · 0 评论 -
hadoop2.X动态添加节点
hadoop2.X动态添加节点1. 基础环境准备在基础准备部分2.添加DataNode3.添加Nodemanager原创 2018-01-31 16:37:21 · 9053 阅读 · 0 评论 -
Flume入门
Flume入门1. 概述Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的软件。Flume 的核心是把数据从数据源(source)收集过来,再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功,在送到目的地(sink)之前,会先缓存数据(channel),待数据真正到达目的地(sink)后,flume 在删除自己缓存的数据。原创 2018-02-03 18:18:36 · 4590 阅读 · 0 评论 -
Azkaban 安装部署
Azkaban 安装部署1. Azkaban 介绍2. 安装部署3. 启动4. 测试原创 2018-02-06 11:35:07 · 2664 阅读 · 0 评论 -
Azkaban 实战
Azkaban 实战1. Command 类型单一 job2. Command 类型多 job3. mr程序4. hive脚本原创 2018-02-06 15:07:30 · 904 阅读 · 0 评论 -
网站流量日志分析流程及架构
网站流量日志分析流程及架构1.数据处理2.系统架构3.数据展现原创 2018-02-06 20:13:32 · 4414 阅读 · 0 评论 -
日志数据采集
日志数据采集1. 需求在网站 web 流量日志分析这种场景中,对数据采集部分的可靠性、容错能力要求通常不会非常严苛,因此使用通用的 flume 日志采集框架完全可以满足需求。2. Flume 日志采集系统原创 2018-02-06 20:41:31 · 4208 阅读 · 0 评论 -
日志分析数据预处理
日志分析数据预处理1. 主要目的过滤“不合规”数据,清洗无意义的数据格式转换和规整根据后续的统计需求,过滤分离出各种不同主题(不同栏目 path)的基础数据。原创 2018-02-06 21:40:40 · 4145 阅读 · 11 评论 -
storm的架构模型
storm的架构模型Nimbus:负责资源分配和任务调度。新版本中的nimbus节点可以有多个,做主备Supervisor:负责接受nimbus分配的任务,启动和停止属于自己管理的worker进程。Worker:运行具体处理组件逻辑的进程。Task:worker中每一个spout/bolt的线程称为一个task. 在storm0.8之后,task不再与物理线程对应,同一个spout/bolt原创 2018-02-26 20:58:56 · 447 阅读 · 0 评论 -
storm的特点
storm的特点Storm是一个开源的分布式实时计算系统,可以简单、可靠的处理大量的数据流。Storm有很多使用场景:如实时分析,在线机器学习,持续计算,分布式RPC,ETL等等。Storm支持水平扩展,具有高容错性,保证每个消息都会得到处理,而且处理速度很快(在一个小集群中,每个结点每秒可以处理数以百万计的消息)。Storm的部署和运维都很便捷,而且更为重要的是可以使用任意编程语言来开发应用。原创 2018-02-26 21:03:45 · 2696 阅读 · 0 评论 -
storm集群安装
storm集群安装1.上传安装包并解压tar -zxvf apache-storm-1.1.1.tar.gz -C ../servers/2.修改配置文件一定要注意yaml格式正确vi storm.yamlstorm.zookeeper.servers: - "node-1" - "node-2" - "node-3"# nimbus.seeds: ["node-1原创 2018-02-26 21:30:23 · 187 阅读 · 0 评论 -
storm的编程模型
storm的编程模型DataSource:外部数据源Spout:接受外部数据源的组件,将外部数据源转化成Storm内部的数据,以Tuple为基本的传输单元下发给BoltBolt:接受Spout发送的数据,或上游的bolt的发送的数据。根据业务逻辑进行处理。发送给下一个Bolt或者是存储到某种介质上。介质可以是,redis,mongodb或mysql,或者其他。Tuple:Storm内部中数据原创 2018-02-26 22:01:16 · 396 阅读 · 0 评论 -
Sqoop安装和数据的导入导出
Sqoop安装和数据的导入导出1、Sqoop概述Sqoop 是Hadoop 和关系数据库服务器之间传送数据的一种工具。它是用来从关系数据库如:MySQL,Oracle 到 Hadoop 的 HDFS,并从 Hadoop 的文件系统导出数据到关系数据库。由 Apache 软件基金会提供。Sqoop:“SQL 到 Hadoop 和 Hadoop 到 SQL”。Sqoop 工作机...原创 2018-04-07 16:07:07 · 417 阅读 · 0 评论