大数据入门
文章平均质量分 81
qq_38799155
愿我的一点微薄之力可以帮到你
展开
-
centos7虚拟机的安装及使用
随手笔记: 1.在windows下安装虚拟机 常见问题:1)cup没有开启虚拟化 2)microsoft Runtime 系统错误 运行 cmd 输入 %Temp% 根据日期找到最新的文件夹下的安装文件进行安装2.安装centos7 1)需要在百度下载镜像文件DVD版64位(例:CentOS-7-x86_6原创 2017-05-30 22:56:43 · 554 阅读 · 0 评论 -
redis单机及其集群的搭建
## **一、单机版redeis** ## 1.安装包下载 http://download.redis.io/releases/ 下载redis的压缩包,并放在/usr/soft文件夹下2.解压压缩包: tar -zxf redis-3.0.7.tar.gz 3.安装 这里安装redis在/usr/local/redis文件夹中 进入安装包:cd /usr/soft/redis-3.原创 2017-11-09 17:34:58 · 363 阅读 · 0 评论 -
伪分布式集群环境hadoop、hbase、zookeeper搭建
环境说明 1、操作系统centos 6.52、jdk-7u51-linux-x64.tar.gz hadoop-1.1.2.tar.gz hbase-0.94.7-security.tar.gz zookeeper-3.4.5.tar.gz设置IP地址设置静态ip执行[plain] view plain copy print?vim /etc/sysconfig/network-s原创 2017-11-09 23:25:37 · 860 阅读 · 0 评论 -
MapReduce的工作原理
一、MapReduce模型框架 MapReduce是一个用于大规模数据处理的分布式计算模型,最初由Google工程师设计并实现的,Google已经将完整的MapReduce论文公开发布了。其中的定义是,MapReduce是一个编程模型,是一个用于处理和生成大规模数据集的相关的实现。用户定义一个map函数来处理一个Key-Value对以生成一批中间的Key-Value对,再定义一个red原创 2017-11-01 21:58:53 · 2091 阅读 · 0 评论 -
MapReduce数据倾斜问题的解决方案
MapReduce数据倾斜问题解决方案,在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大,但是集群中可能硬件不同,应用的类型不同和切分的数据大小不一致总会导致有部分任务极大的拖慢了整个任务的完成时间,硬件不同就不说了,应用的类型不同其中就比如page rank 或者data mining 里面一些计算,它的每条记录消耗的成本不太一样,这里只讨论关于关系型运算...原创 2018-05-11 13:24:07 · 1267 阅读 · 0 评论 -
Hadoop MapReduce执行过程详解
分析MapReduce执行过程MapReduce运行的时候,会通过Mapper运行的任务读取HDFS中的数据文件,然后调用自己的方法,处理数据,最后输出。Reducer任务会接收Mapper任务输出的数据,作为自己的输入数据,调用自己的方法,最后输出到HDFS的文件中。 Mapper任务的执行过程详解每个Mapper任务是一个java进程,它会读取HDFS中的文件,解析成很多的...原创 2018-06-11 12:29:16 · 1219 阅读 · 0 评论 -
Flink架构、原理与部署测试及从kafka到flink到hbase
一、Flink架构、原理与部署测试Flink架构、原理与部署测试二、kafka+flink+hbase1.首先创建maven工程。2.依赖文件如下<dependencies> <dependency> <groupId>org.apache.flink</groupId> <a...原创 2018-06-25 23:12:59 · 2544 阅读 · 0 评论 -
大数据的学习路线总结
离线数据分析的总结,分享出来给大家。先上图,手绘有点丑,请关注内容即可。大数据离线处理技术学习要点图: 虽然网上也有很多的学习路线,很多的方法建议,各类不同的工具,但是找到属于自己的才是最好的。下面我就来详细说下我的学习路线吧。一、基础阶段1、开始大数据学习之前,首先要把基础打好。我在学习大数据的过程中,学习的准备部分主要包括Java,Linux和MySQL的学习。具体的学习...原创 2018-07-03 14:30:42 · 850 阅读 · 0 评论 -
spark-1.6.x的学习总结
官方定义:spark是一个基于内存的分布式计算框架它会使得计算速度以及开发速度快!特点:One stack rule them all ! 一站解决所有问题热查询(Hive)批处理(MapReduce)实时流计算(Storm)回顾MapReduce 的 Shuffle过程 见图 hadoop慢的原因: 1、基于内存 2、DAG的优化运行模式:...原创 2018-07-05 23:23:48 · 331 阅读 · 0 评论 -
Amabri 2.1安装HDP2.3.2 之 一、HDP介绍
一、HDP(一)简介HDP全称是Hortonworks Data Platform,是由一家美国大数据公司Hortonworks开发的企业级Hadoop平台。 Hortonworks致力于帮助客户利用Hadoop开源大数据平台管理数据。HDP是完全在开源的环境下设计、开发和构建的,它以 YARN 作为其架构中心,该平台支持一系列处理方法——批处理、交互式处理、实时处理。(二...原创 2018-07-07 22:01:38 · 598 阅读 · 0 评论 -
Amabri 2.1安装HDP2.3.2 之 二、需求配置说明
二、需求配置说明Ambari 安装hortonworks相应ambari版本可以支持的hdp版本如下图2.0: 图2.0我们选择的是ambari2.1.2,hdp是2.3.2.0 此时我们准备好一台纯净虚拟机作为master机,完整克隆出两台slave机。 注意:通过ambari安装hdp,并不能安装hue。我们想要安Hue,所以需要手动安装。而hue不支持centos7下的...原创 2018-07-07 22:16:43 · 294 阅读 · 0 评论 -
Amabri 2.1安装HDP2.3.2 之 三、开始配置基本环境
三、开始配置基本环境1.配置 SSH1)在Ambari Server host执行下列语句,一路回车,生成公钥和私钥。# ssh-keygen -t rsa2). 将公钥文件(id_rsa.pub)追加到 authorized_keys.# cat ~/.ssh.id_rsa.pub &gt;&gt; ~/.ssh/authorized_keys# chmod 6...原创 2018-07-07 23:00:10 · 403 阅读 · 0 评论 -
Amabri 2.1 安装HDP2.3.2 之 四、安装ambari
四、安装amabri在五 2 (5)那一步,我选择的是非默认的mysql数据库,所以需要提前做些安排。当然,你可以选择默认的PostgreSQL 数据库。1.查看下现有的资源库配置信息:# yum repolist 会出现和以下相近的信息: 2.开始安装amabri-server :# yum install ambari-server安装过程终端会输...原创 2018-07-07 23:06:07 · 270 阅读 · 0 评论 -
Ambari 2.1安装 HDP2.3.2 之 五、配置amabri-server
五、配置ambari-server配置ambari-server之前要先建立amabri要使用的数据库。1.为ambari建立数据库# yum install mysql-connector-java# mysql -u root -pmysql&gt; USER 'ambari'@'%' IDENTIFIED BY 'glj887'; mysql&gt; GRANT ...原创 2018-07-07 23:16:43 · 510 阅读 · 0 评论 -
HBase调优
一、表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照region分区情况,在集群内做数据的负载均衡。 下面是一个原创 2017-11-09 17:14:02 · 263 阅读 · 0 评论 -
HBase详解
本文首先简单介绍了HBase,然后重点讲述了HBase的高并发和实时处理数据 、HBase数据模型、HBase物理存储、HBase系统架构,HBase调优、HBase Shell访问等。不过在此之前,你可以先了解 Hadoop生态系统 ,若想运行HBase,则需要先搭建好Hadoop集群环境,可以参考此文搭建5个节点的hadoop集群环境(CDH5) 。好了,让我们来学习HBase吧!HBase简介原创 2017-11-09 13:34:21 · 874 阅读 · 0 评论 -
Sbt仓库设置
每次sbt update的时候,都很慢,上火。原因是国内访问国外仓库,不给力。 改下repo仓库的设置就好了: 找到.sbt文件夹,一般在Administrator下,然后在.sbt里新建一个repositories文件,添加内容:[repositories] local osc: http://maven.oschina.net/content/groups/public/ typesa原创 2017-11-08 15:09:32 · 1067 阅读 · 0 评论 -
Zookeeper原理
zk的特点:最终一致性:client不论连接到哪个Server,展示给它都是同一个视图,这是zookeeper最重要的性能。可靠性:具有简单、健壮、良好的性能,如果消息m被到一台服务器接受,那么它将被所有的服务器接受。实时性:Zookeeper保证客户端将在一个时间间隔范围内获得服务器的更新信息,或者服务器失效的信息。但由于网络延时等原因,Zookeeper不能保证两个客户端能同时得到刚更新的原创 2017-08-02 15:22:22 · 215 阅读 · 0 评论 -
在centos7上搭建hadoop集群
准备工作 主机名称 系统环境 ip地址 hadoop-master centos7 192.168.150.181 hadoop-slave1 centos7 192.168.150.182 hadoop-slave2 centos7 192.168.150.1831.下载hadoop 本文用的是hadoop-2.7.3的版本 下载hadoop的链原创 2017-07-23 23:05:39 · 10416 阅读 · 2 评论 -
Hbase完全分布式高可用集群安装配置
1.准备安装软件OS:centos7 Hadoop:hadoop-2.7.3 HBase:hbase-1.2.6 JDK:jdk-8u121-linux-x64 集群机器: 主机 IP地址 系统 软件 进程 nn1 192.168.150.181 centos7 jdk1.8+,hadoop,HBase NameNode、DFSZKFailoverCon原创 2017-08-15 19:35:54 · 659 阅读 · 0 评论 -
Tengine + Lua + GraphicsMagick 实现图片自动裁剪/缩放
1.产生的背景随着互联网的快速发展、需求频繁变更、内容数量的俱增、时间的持续增长,图片数量也会越来越多。在实际需求中,会出现在若干个页面或同一个页面不同位置,展示同一条信息以及其缩略图。在这时,如果使用 CSS 控制图片显示的大小,对于那些与该位置不成比例的图片,缩小后就会出现图片变形。也不可能让编辑人员,对所有的图片进行 PS,这时候就产生了强烈的自动化裁剪、缩放图片的需求,来适应不同规格的缩略图原创 2017-09-12 17:44:06 · 798 阅读 · 0 评论 -
在centos7下搭建redis集群
1. 环境的介绍在一台虚拟机上模拟6个节点(官方说最少6个,3master,3slave),创建出3 master、3 salve 环境。 redis 采用 redis-4.0.1 版本。 在网上随便可以找到的配置多个redis,(总体有两种方式,一种是虚拟的,貌似走的都是一个redis,一种是将配置好的redis复制成六份,配置相应的端口等,我选择的后者显得更真实一些)2.开始搭建2.1下载并原创 2017-09-14 16:54:09 · 412 阅读 · 0 评论 -
hadoop-2.7.3源码编译后支持的4种压缩格式
简介四种压缩格式的优缺点以及应用场景的介绍:1 gzip压缩 优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;有hadoop native库;大部分linux系统都自带gzip命令,使用方便。 缺点:不支持split。 应用场景:当每个文件压缩之后在130M以内的(1个块大小内),都可以考虑用gzip压缩格式。譬如说一天原创 2017-09-07 14:46:37 · 795 阅读 · 0 评论 -
压缩在hadoop中的应用
压缩在hadoop中的应用1.1压缩简介 Hadoop 作为一个较通用的海量数据处理平台,每次运算都会需要处理大量数据,我们会在 Hadoop 系统中对数据进行压缩处理来优化磁盘使用率,提高数据在磁盘和网络中的传输速度,从而提高系统处理数据的效率。在使用压缩方式方面,主要考虑压缩速度和压缩文件的可分割性。综合所述,使用压缩的优点如下: 1. 节省数据占用的磁盘空间; 2. 加快数据在磁盘和网络原创 2017-09-07 12:27:32 · 420 阅读 · 0 评论 -
hadoop伪分布式的搭建
一、简述 在centos7 Linux下进行伪分布式搭建。Hadoop 伪分布式模式是在单机上模拟 Hadoop 分布式,单机上的分布式并不是真正的伪分布式,而是使用线程模拟分布式。Hadoop 本身是无法区分伪分布式和分布式的,两种配置也很相似,唯一不同的地方是伪分布式是在单机器上配置,数据节点和名字节点均是一个机器。虽然Hadoop的安装步骤并不复杂,但是我在安装期间还是遇到了很多琐碎的问题,原创 2017-08-31 16:27:26 · 1148 阅读 · 1 评论 -
Flume的安装及简单的使用(二)
1.准备工作在Flume的安装及简单的使用(一) 的基础上系统环境之上添加hadoop-2.7.3 ,并创建hadoop伪分布集群并创建。hadoop伪分布集群的搭建,请参考:http://blog.csdn.net/qq_38799155/article/details/777488312.配置 Flume环境变量在hadoop用户下配置:$ vi .bashrc添加如下内容export FLUM原创 2017-09-19 03:07:03 · 1393 阅读 · 0 评论 -
Hadoop2.7.3环境下Sqoop1.99.5安装
一、安装准备1.已经装好的hadoop环境是hadoop 2.7.3 参考博客:http://blog.csdn.net/qq_38799155/article/details/777488312.下载sqoop的安装包(注意是hadoop200) 下载地址:http://archive.apache.org/dist/sqoop/1.99.5/ 二、搭建环境1.通过xftp,将下载的sqoo原创 2017-09-01 23:51:51 · 1295 阅读 · 0 评论 -
redis的安装及使用
1.redis的简介1.1 Redis是什么 REmote DIctionary Server(Redis) 是一个由Salvatore Sanfilippo写的key-value存储系统。Redis提供了一些丰富的数据结构,包括 lists, sets, ordered sets 以及 hashes ,当然还有和Memcached一样的 strings结构.Redis当然还包括了对这些数据结构的原创 2017-09-11 22:46:49 · 572 阅读 · 0 评论 -
HBase中的HMaster、HRegionServer、Zookeeper
HMaster是HBase主/从集群架构中的中央节点。通常一个HBase集群存在多个HMaster节点,其中一个为Active Master,其余为Backup Master. Hbase每时每刻只有一个hmaster主服务器程序在运行,hmaster将region分配给region服务器,协调region服务器的负载并维护集群的状态。Hmaster不会对外提供数据服务,而是由region服务器负原创 2017-10-28 14:37:51 · 1953 阅读 · 0 评论 -
CentOS下Hive2.3.0单机模式安装详解
1. 准备工作 操作系统 hive版本 jdk版本 hadoop版本 MySQL centos7 2.3.0 1.8+ 2.7.3 mysql5.7ps:Hive 2.3.0需要以下运行环境: Java 1.7以上(强烈建议使用Java 1.8) Hadoop 2.X1.Hive和Hadoop一样,有3种启动模式,分别是单机模式,伪分布模原创 2017-08-26 18:45:03 · 1507 阅读 · 0 评论 -
Ambari 2.1安装HDP2.3.2 之 六、安装部署HDP集群 详细步骤
六、安装部署HDP集群浏览器访问 http://master:8080,进入amabri登录页面,用户名:admin,密码: admin 选择 Launch Install Wizard: 1. Get started给集群起个名字,这里是 BigData: 2. Select stack选择 hdp2.3, 将除redhat6 以外的复选框去掉勾。 并且将hd...原创 2018-07-07 23:38:21 · 601 阅读 · 0 评论