大数据
文章平均质量分 64
huwao
盖学贵善思,君但志之而不思之,终必无所成,何以谓之善学也?
展开
-
Hadoop完全分布式的搭建
导语:继上一篇文章之后,在这里继续做Linux与Hadoop学习笔记。在Linux配置静态IP搞定之后,我们就可以搞一个完全分布的集群来检测一下最近的学习情况啦。Linux常用指令学习:https://blog.csdn.net/hu_belif/article/details/82389488首先提供以下资源地址:Hadoop的官网:http://hadoop.apac...原创 2018-09-05 14:35:06 · 866 阅读 · 0 评论 -
Hadoop完全分布式安装Hive
推荐阅读《Hive编程指南》 编译安装 Hive如果需要直接安装 Hive,可以跳过编译步骤,从 Hive 的官网下载编译好的安装包,下载地址为http://hive.apache.org/downloads.html。Hive的环境配置需要MySQL的支持,所以首先需要安装MySQL,没有安装MySQL的先看上一篇:安装MySQLC.1 编译HiveC.1.1 下载 H...原创 2018-10-25 08:55:35 · 5336 阅读 · 7 评论 -
Hadoop的shuffle学习
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,...转载 2018-10-23 10:35:17 · 223 阅读 · 0 评论 -
错误Name node is in safe mode的解决方法
将本地文件拷贝到hdfs上去,结果上错误:Cannot create file/test.txt._COPYING_. Name node is in safe mode.这是因为在分布式文件系统启动的时候,开始的时候会有安全模式,当分布式文件系统处于安全模式的情况下,文件系统中的内容不允许修改也不允许删除,直到安全模式结束。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有...转载 2018-10-23 19:11:21 · 55739 阅读 · 4 评论 -
Hadoop完全分布式用MapReduce实现自定义排序、分区和分组
经过前面一段时间的学习,简单的单词统计已经不能实现更多的需求,就连自带的一些函数方法等也是跟不上节奏了;加上前面一篇MapReduce的底层执行步骤的了解,今天学习自定义的排序、分组、分区相对也特别容易。认为不好理解,先参考一下前面的一篇:https://blog.csdn.net/hu_belif/article/details/83007178自定义排序自定义的排序有许多许...原创 2018-10-24 08:59:05 · 1046 阅读 · 0 评论 -
Hadoop完全分布式安装zookeeper
D.1安装 ZooKeeperD.1.1 下载 ZooKeeperZooKeeper 是 Apache 基金会的一个开源、分布式应用程序协调服务,是 Google 的 Chubby一个开源的实现。它是一个为分布式应用提供一致性服务的软件,提供的功能包括配置维护、域名服务、分布式同步、组服务等。它的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。Z...原创 2018-10-24 09:33:14 · 2096 阅读 · 0 评论 -
关于大数据的CAP理论
CAP理论在大数据领域知名度非常高,当前流行的大数据技术普遍把其当作理论基础,是NoSQL数据库的基石,很多架构师都会将其作为分布式系统设计的准则。CAP理论指出任何分布式系统在可用性、一致性、分区容忍性方面,不能兼得,最多只能得其二。但“三选二”的说法有其一定误导性,三特性之间的相互关系过于简单化了,比如业界一直存在一种认识,那就是传统关系型数据库设计选择了CA,NoSQL数据库设计选...转载 2018-11-06 13:28:42 · 1023 阅读 · 0 评论 -
Spark有向无环图DAG图解与演示
目录:1、有向无环图2、代码结构3、代码学习步鄹及方法4、重点代码讲解5、代码展现6、运行结果———————————————————————————————————1、有向无环图在图论中,如果一个有向图无法从某个顶点出发经过若干条边回到该点,则这个图是一个有向无环图(DAG图)。 因为有向图中一个点经过两种路线到达另一个点未必形成环,因此有向无环图未必能转化成树,但任何有向树...转载 2018-11-12 19:21:44 · 2463 阅读 · 0 评论 -
Linux常用命令总结
下载doc整理文档到本地:https://download.csdn.net/download/hu_belif/10646528分享一个Linux学习网址:http://man.linuxde.net/注意:下面的‘eg’代表的是示例的意思;‘---’是释义。1.ls [选项] [目录名 ---列出相关目录下的所有目录和文件 1 2 3 ...转载 2018-11-12 19:27:00 · 319 阅读 · 0 评论 -
solr7的安装配置以及调试(增量导入,修改导入等)
关于solr的相对完整配置教程 本人在网络上搜罗许久,许多的博文没有比较全面的描述,今天在这里和大家分享一下solr的安装配置以及调试的文章,文章是网络多篇博文整理而来,文章最后有地址,若有侵权立即删除。Solr是一个独立的企业级搜索应用服务器,官网地址:https://lucene.apache.org/solr/从域名我们不难看出,solr是基于lucene的,同时属于apache旗...翻译 2018-12-10 11:33:03 · 1393 阅读 · 0 评论 -
SpringCloud与Dubbo微服务技术对比
微服务架构是互联网很热门的话题,是互联网技术发展的必然结果。它提倡将单一应用程序划分成一组小的服务,服务之间互相协调、互相配合,为用户提供最终价值。虽然微服务架构没有公认的技术标准和规范或者草案,但业界已经有一些很有影响力的开源微服务架构框架提供了微服务的关键思路,例如Dubbo和Spring Cloud。各大互联网公司也有自研的微服务框架,但其模式都于这二者相差不大。微服务主要的优势如下:...转载 2018-11-30 18:46:37 · 437 阅读 · 0 评论 -
Linux下安装配置MySQL
安装 MySql 数据库B.1 卸载旧的 MaySql 程序1.查找以前是否安装有 mysql使用命令查看是否已经安装过 mysql:#rpm -qa | grep -i mysql如果没有结果,则可以进行 mysql 数据库安装。2.如果有,则先停止 mysql 服务并删除之前安装的 mysql如果之前安装过 MySql,则先停止 mysql 服务,然后删除之前...原创 2018-10-25 08:55:20 · 676 阅读 · 0 评论 -
Hadoop的combiner学习与自定义combiner
Combiner的概念Combiner号称本地的Reduce,Reduce的输入是Combiner的最终输出。在MapReduce中,当map生成的数据过大时,带宽就成了瓶颈,怎样精简压缩传给Reduce的数据,有不影响最终的结果呢。有一种方法就是使用Combiner,Combiner号称本地的Reduce。Combiner是用reducer来定义的,多数的情况下Combiner和re...原创 2018-10-22 20:51:04 · 563 阅读 · 0 评论 -
(连接拒接)Call From hadoop 1 failed on connection exception: java.net.ConnException
官方答复:ls: Call From hadoop1/192.168.132.130 to hadoop1:9000 failed on connection exception: java.net.ConnectException: Connection refused; For more details see: http://wiki.apache.org/hadoop/Connec...原创 2018-10-10 15:11:46 · 3708 阅读 · 1 评论 -
重写Linux网卡设置静态IP
序:最近因为要搭集群的原因,需要几台linux同时运行,并且使用客户端工具SSH Client进行外部操作,所以就需要我们来重写网卡并设置静态Ip了。首先呢,要保证我们的虚拟机的网卡设置为NAT或桥接网络模式,本人使用的是VMware,如果您是VirtualBox的话使用NAT或桥接网卡网络模式都可以。 下面开始打开我们的terminal输入命令,双开哦。一、第一个term...原创 2018-09-02 20:57:29 · 2324 阅读 · 0 评论 -
Linux下Hadoop的安装与配置
序:今天在这里给大家分享一下如何在Linux下安装与配置Hadoop。开始进行大数据部分的学习,为了存档,写下现在进行以下的步骤:需要用到的主要版本:虚拟机:Vmware Workstation pro 14Linux系统:CentOS6.5 64bitjdk版本:jdk1.8.0_111hadoop版本:hadoop-2.8.4所有的包均可以在官网下载H...翻译 2018-09-04 22:13:03 · 2671 阅读 · 4 评论 -
Hadoop不完全分布(单机、伪分布)模式搭建
一,配置一台普通的虚拟机要求:安装Java的jdk1.7+二、解压安装Hadoop之前有做安装笔记:https://blog.csdn.net/hu_belif/article/details/82391003三、配置Java与Hadoop的环境变量键入命令:vim /etc/profile按i进入插入状态 ,开始使用vim编辑器编辑:在末尾插入下列这段代码:...原创 2018-09-05 21:12:31 · 511 阅读 · 0 评论 -
WARN hdfs.DataStreamer: Caught exception java.lang.InterruptedException
最近总是莫名其妙的出现以下的报错,WARN hdfs.DataStreamer: Caught exceptionjava.lang.InterruptedException详情: WARN hdfs.DataStreamer: Caught exceptionjava.lang.InterruptedException at java.lang.Object.wai...原创 2018-09-10 17:02:41 · 6383 阅读 · 3 评论 -
HDFS客户端的权限错误:Permission denied
首先先来看一下这个错误的完整描述:org.apache.hadoop.security.AccessControlException: org.apache.hadoop.security .AccessControlException: Permission denied: user=Administrator, access=WRITE, inode="hadoop": hadoop:s...转载 2018-09-10 19:59:43 · 2421 阅读 · 0 评论 -
Cannot create directory /user/root/QuasiMonteCarlo_1536201247182_1339573420/in. Namenode is in safe
搭建好集群后因为一时着急,出现以下的报错:[root@hadoop1 mapreduce]# hadoop jar hadoop-mapreduce-examples-2.8.4.jar pi 20 50Number of Maps = 20Samples per Map = 50org.apache.hadoop.hdfs.server.namenode.SafeModeExcep...原创 2018-09-10 20:14:07 · 1358 阅读 · 0 评论 -
MapReduce学习简单实现词频统计
今天自己写了一下简单的单词统计的MapReduce算法程序,在这里分享一下,为还在为此迷茫的伙伴指引方向同时也希望路过的大佬帮我指点一下不足之处,感谢。单词统计的流程:在Hadoop学习过程中,单词统计作为一个最经典的案例,非常简单实用,是每一个入门菜鸟必须要掌握的一个例子,可以通过这个简单的小案例了解Hadoop的基本运行原理和MapReduce程序的开发流程。下面开搞,...原创 2018-09-10 22:04:34 · 4572 阅读 · 1 评论 -
HbaseThere could be a mismatch with the one configured in the master.
每天更新报错,今天报错:ERROR [main] client.ConnectionImplementation: The node /hbase is not in ZooKeeper. It should have been written by the master. Check the value configured in 'zookeeper.znode.parent'. The...原创 2018-09-15 11:07:27 · 398 阅读 · 0 评论 -
zookeeper启动报错Error:It is probably not running
首先说明一下本人的情况,我是启动zkServer.sh start 后显示是启动了,jps下也是有线程,说明线程启动成功,并没有端口占用的问题,但是在我zkServer.sh status时就会出现:It is probably not running在各种大神的帮助下,搞定了这个问题,下面是解决方案。解决方案如下:1;查看liunx系统的防火墙是否关闭,查看防火墙状态...原创 2018-09-22 09:41:31 · 489 阅读 · 0 评论 -
Hadoop生态圈总结——大数据
Hadoop的发展史: 生态圈图解: MapReduce:分布式数据处理模型和执行环境、运行于大型商用机集群。 ZooKeeper:一个分布式、高可用的协调服务。ZooKeeper提供分布式锁之类的基本服务用于构建分布式应用。 HDFS: 分布式文件系统,运行于大型商用机集群。 Hadoop体系最底层的一个模块。为Hadoop各子项目提供各种工具,如:配置...原创 2018-10-15 14:52:57 · 4133 阅读 · 0 评论 -
MapReduce多文件处理实战应用
前面学习了简单的经典的Wordcount算法,今天我们来学习一个处理文件内容、整理数据集的算法(关系的自然连接); 用MapReduce实现关系的自然连接 假设有关系R(A,B)和S(B,C),对二者进行自然连接操作 使用Map过程,把来自R的每个元组<a,b>转换成一个键值对<b, <R,a>>,其中的键就是属性B的值。把关系...原创 2018-10-10 14:21:45 · 626 阅读 · 0 评论 -
解决DefaultSerializer requires a Serializable payload but received an object of type[xxx]
org.springframework.data.redis.serializer.SerializationException:Cannot serialize; nested exception is org.springframework.core.serializer.support.SerializationFailedException: Failed to serialize ...原创 2018-12-25 16:09:20 · 6080 阅读 · 0 评论