- 博客(66)
- 收藏
- 关注
转载 大数据框架之Flume
一、什么是FlumeFlume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。---摘自百度百科Flume只能...
2019-07-25 18:27:00 198
转载 elasticSearch(五)——SpringBoot集成Elasticsearch
代码下载地址:https://github.com/tazhigang/big-data-github.git代码查看地址:https://github.com/tazhigang/big-data-github/tree/master/elasticsearch-parent/spring...
2019-07-24 19:35:00 141
转载 MongoDB(四)——SpringBoot集成mongodb
代码下载地址:https://github.com/tazhigang/big-data-github.git代码查看地址:https://github.com/tazhigang/big-data-github/tree/master/mongodb-parent/springboot-m...
2019-07-22 16:37:00 153
转载 elasticSearch(四)——java操作ES的API
代码下载地址:https://github.com/tazhigang/big-data-github/tree/master/elasticsearch-parent一、pom中添加的依赖 <dependencies> <dependency>...
2019-07-21 15:14:00 176
转载 elasticSearch(三)——Centos7.x_64位上安装
一、安装elasticSearch(linux:192.168.0.120 ;user:es)下载elasticsearch-5.2.2.tar.gz:https://github.com/elastic/elasticsearch/releases?after=v5.2.2安装jdk8...
2019-07-21 15:13:00 100
转载 elasticSearch(二)——核心概念
一、近实时近实时,两个意思,从写入数据到数据可以被搜索到有一个小延迟(大概1秒);基于es执行搜索和分析可以达到秒级。二、Cluster(集群)集群包含多个节点,每个节点属于哪个集群是通过一个配置(集群名称,默认是elasticsearch)来决定的,对于中小型应用来说,刚开始一个...
2019-07-21 15:12:00 143
转载 elasticSearch(一)——概述
一、什么是搜索搜索,就是在任何场景下,找寻你想要的信息,这个时候,会输入一段你要搜索的关键字,然后就期望找到这个关键字相关的有些信息,在互联网里面;当提到搜索,我们首先会想到的就是百度!但是针对互联网来说很多地方都会用到搜索:比如一些电商网站、新闻网站、招聘网站、收集移动端App、OA软件...
2019-07-21 15:11:00 115
转载 可扩展模式
一、概述硬件软件最大的区别在于,软件具有可扩展性,硬件从制造出来就不会进行改变直到硬件损坏!软件天生具有可扩展性的这一特点虽然独一无二,同样的也是他的一大难点二、可扩展思想可扩展的思想就是"拆",拆分软件系统,得到不用的架构,常见的拆分思路有三种:面向流程的拆分:将整体业务流...
2019-07-20 14:25:00 204
转载 Hive(五)——Sqoop导入数据
一、Sqoop的安装与配置下载安装包:sqoop-1.4.5-cdh5.3.6.tar.gz解压到linux指定目录备份./conf/sqoop-env-template.sh文件,cp sqoop-env-template.sh sqoop-env.sh修改配置文件:#Set ...
2019-07-19 00:39:00 116
转载 Hive(四)——Hive框架基础(二)
一、Hive创建表的方式使用create命令创建一个新表例如:create table if not exists dbname.tbname(字段) partitioned by (date string,hour string) ## 分区 row format delimi...
2019-07-17 09:04:00 120
转载 CAP
一、概述C(Consistance):一致性--对客户端来说,读操作保证能够返回最新的写操作的结果A (Availability):可用性--非故障节点在合理的时间内,返回合理的响应(不是错误和超时响应)P(Partition Tolerance):分区容错性,当出现网络反应后,系统能...
2019-07-16 23:31:00 103
转载 Hive(三)——Hive框架基础
一、Hive的MapReduce任务相关配置:<property> <name>hive.fetch.task.conversion</name> <value>more</value> <description>...
2019-07-14 23:13:00 186
转载 Hive(二)——Hive的安装与部署
一、安装前的说明hive相当于MapReduce的客户端,所以hive只有在hadoop环境下正常运行,这里说明一下,本博客今后的案例都会将hive安装在hadoop-ip-101的机器上hive依赖java,hadoop,mysql准备好hive的安装包:hive-0.13.1-cd...
2019-07-14 23:12:00 104
转载 Hive(一)——Hive基础知识
一、数据库与数据仓库在讲述Hive之前先了解一下数据库和数据仓库的含义数据库:是一种逻辑概念,用来存放数据的仓库,通过数据库软件来实现。数据库由很多表组成,表是二维的,一张表里面有很多字段。字段一字排开,对数据就一行一行的写入表中。数据库的表,在于能够用二维表现多维的关系。如:oracl...
2019-07-14 19:39:00 124
转载 MongoDB(三)——java集成mongodb
代码下载地址:https://github.com/tazhigang/big-data-github.git一、项目结构二、pom.xmlmongodb-parent----->pom.xml <?xml version="1.0" encoding="UTF-8"?...
2019-07-13 22:15:00 358
转载 MongoDB(二)——MongoDB的基本语法
1.进入test数据库//查看当前mongodb有哪些数据库 show dbs //进入test数据库 use test //查看当前所在的数据库名称 db 2.向数据库的user集合中插入一个文档/* db.collection.insert()...
2019-07-12 23:51:00 312
转载 MongoDB(一)——数据库的简介及MongoDB的安装
一、数据库数据库是按照数据结构来组织、存储和管理数据的仓库。我们的程序都是在内存中运行的,一旦程序运行结束或者计算机断电,程序运行中的数据都会丢失。所以我们就需要将一些程序运行的数据持久化到硬盘之中,以确保数据的安全性。而数据库就是数据持久化的最佳选择。说白了,数据库就是存储数据的...
2019-07-11 23:53:00 91
转载 Zookeeper(四)——理论篇(四)
一、客户端命令行操作启动客户端连接help :显示所有操作命令ls path [watch] :使用 ls 命令来查看当前znode中所包含的内容;如:ls /ls2 path [watch] : 查看当前节点数据并能看到更新次数等数据;如:ls2 /create : 创建节点...
2019-07-11 21:21:00 83
转载 Zookeeper(三)——理论篇(三)
一、Zk数据结构ZooKeeper数据模型的结构与Unix文件系统很类似,整体上可以看作是一棵树,每个节点称做一个ZNode。很显然zookeeper集群自身维护了一套数据结构。这个存储结构是一个树形结构,其上的每一个节点,我们称之为"znode",每一个znode默认能够存储1MB的数...
2019-07-11 20:47:00 127
转载 Zookeeper(二)——理论篇(二)
一、zookeeper集群的搭建zookeeper集群的搭建相对比较简单就是在单机的基础上增加一些配置,然后将该配置分发到其他机器上具体操作如下:将zookeeper-3.4.5.tar.gz通过sftp上传至hadoop-ip-101:/home/hadoop/soft目录下;并将压缩...
2019-07-10 22:19:00 103
转载 Zookeeper(一)——理论篇(一)
一、概述Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。Zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责...
2019-07-10 21:42:00 88
转载 Hadoop(十八)——hadoop之MapReduce理论篇(九)——MapReduce参数优化
一、资源相关参数 1.以下参数是在用户自己的mr应用程序中配置就可以生效 配置参数 参数说明 mapreduce.map.memory.mb 一个Map Task可使用的资源上限(单位:MB),默认为10...
2019-07-08 23:12:00 263
转载 大数据案例(九)——自定义Outputformat
代码下载地址:https://github.com/tazhigang/big-data-github.git一、概述要在一个mapreduce程序中根据数据的不同输出两类结果到不同目录,这类灵活的输出需求可以通过自定义outputformat来实现。自定义outputformat,...
2019-07-07 23:43:00 294
转载 大数据案例(八)——自定义Inputformat
代码下载地址:https://github.com/tazhigang/big-data-github.git一、概述自定义一个InputFormat改写RecordReader,实现一次读取一个完整文件封装为KV在输出时使用SequenceFileOutPutFormat输出合并文...
2019-07-07 21:21:00 201
转载 大数据案例(七)——MapReduce之map端表合并(Distributedcache)
代码下载地址:https://github.com/tazhigang/big-data-github.git一、前期准备由于本案例是在案例六的基础上做的优化,所以需求及数据输入输出请参考案例六;初次之外需要拷贝pd.txt文件在本地电脑J盘的根目录下以做参考本案例只需要上传order...
2019-07-07 12:24:00 151
转载 大数据案例(六)——MapReduce之reduce端表合并(数据倾斜)
代码下载地址:https://github.com/tazhigang/big-data-github.git一、需求:将商品信息表中数据根据商品id合并到订单数据表中二、数据准备数据准备: ==============================order.txt=======...
2019-07-07 11:59:00 202
转载 大数据案例(五)——MapReduce求出每一个订单中最贵的商品
代码下载地址:https://github.com/tazhigang/big-data-github.git一、需求:求出每一个订单中最贵的商品二、数据准备数据准备 Order_0000001 Pdt_01 222.8 Order_0000002 Pdt_05 722.4 O...
2019-07-07 11:20:00 1018
转载 大数据案例(四)——MapReduce将文件按照订单号分成若干个小文件
代码下载地址:https://github.com/tazhigang/big-data-github.git一、需求:将文件按照订单号分成若干个小文件二、数据准备数据准备 Order_0000001 Pdt_01 222.8 Order_0000002 Pdt_05 722.4...
2019-07-07 11:09:00 287
转载 大数据案例(三)——MapReduce实现流量统计案例-分区
代码下载地址:https://github.com/tazhigang/big-data-github.git一、需求:将统计结果按照手机归属地不同省份输出到不同文件中(分区)二、数据准备数据准备:案例二中的phoneData.txt根据电话号码的前三位分区三、创建maven项目...
2019-07-06 14:19:00 561
转载 Hadoop(十七)——hadoop之MapReduce理论篇(八)—— MapReduce与Yarn
一、Yarn概述Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而mapreduce等运算程序则相当于运行于操作系统之上的应用程序二、Yarn的重要概念Yarn并不清楚用户提交的程序的运行机制Yarn只提供运算资源的调度(用户程序向Yar...
2019-07-05 22:47:00 155
转载 Hadoop(十六)——hadoop之MapReduce理论篇(七)——MapReduce数据压缩
一、 概述压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在Hadood下,尤其是数据规模很大和工作负载密集的情况下,使用数据压缩显得非常重要。在这种情况下,I/O操作和网络数据传输要花大量的时间。还有,Shuffle与Merge过程同样也面临着...
2019-07-05 22:46:00 151
转载 Hadoop(十五)——hadoop之MapReduce理论篇(六)—— ReduceTask工作机制
一、设置ReduceTaskreducetask的并行度同样影响整个job的执行并发度和执行效率,但与maptask的并发数由切片数决定不同,Reducetask数量的决定是可以直接手动设置://默认值是1,手动设置为4job.setNumReduceTasks(4);二、注意如...
2019-07-04 23:06:00 171
转载 Hadoop(十三)——hadoop之MapReduce理论篇(四)—— MapTask工作机制
一、问题引出maptask的并行度决定map阶段的任务处理并发度,进而影响到整个job的处理速度。那么,mapTask并行任务是否越多越好呢?二、MapTask并行度决定机制一个job的map阶段MapTask并行度(个数),由客户端提交job时的切片个数决定。三、MapTask工作机...
2019-07-04 23:05:00 121
转载 Hadoop(十四)——hadoop之MapReduce理论篇(五)——MapReduce详细工作流程
一、Shuffle机制Mapreduce确保每个reducer的输入都是按键排序的。系统执行排序的过程(即将map输出作为输入传给reducer)称为shuffle。二、MapReduce工作流程1.图示流程2.流程详解上面的流程是整个mapreduce最全工作流程,但是shuff...
2019-07-04 23:05:00 226
转载 Hadoop(十二)——hadoop之MapReduce理论篇(三)—— FileInputFormat源码解析及切片规则详解...
一、源码 public List<InputSplit> getSplits(JobContext job) throws IOException { long minSize = Math.max(this.getFormatMinSplitSize(), ge...
2019-07-03 00:49:00 336
转载 Hadoop(十一)——hadoop之MapReduce理论篇(二)—— job的提交流程源码分析
一、job提交过程源码分析1. 调用job.waitForCompletion(true)源码查看/** * 1. @Param verbose:true表示将运行进度等信息及时输出给用户,false的话只是等待作业结束 * 2. public static enum JobState...
2019-07-03 00:48:00 314
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人