关闭

Hadoop

1.第一步:检查有无安装hadoop的服务 ps -ef | grep hadoop find / -name hadoop 使用tar进行解压操作的时候,解压成功文件会变动用户和用户组的额 chown -R root:root rpm -qa...
阅读(11) 评论(0)

Linux部署以及常规使用

VM安装过程的问题点 VM工具安装好之后, 涉及到后面的Linux系统安装时候,会抛出一个错误的警告:虚拟环境的长模式被禁用 参考http://jingyan.baidu.com/article/08b6a591cbbbf114a80922b6.html 无线网络链接—>属性—>共享—>Internet链接共享(共享的通道时VM8 ) Linux的常用命令...
阅读(14) 评论(0)

Spark二次排序

二次排序案例需求及实现思路: 案例需求:按照文件中的第一列进行排序,如果第一列相同,则按照第二列进行排序实现思路:实现自定义的key,要实现order接口和Serializable接口,在key中实现自己对都多个列的排序算法,将包含文本的RDD,映射成key为自定义的key ,value为文本中的JavapairRDD的 使用sortByKey算子按照自定义的key进行排序的,再次映射,剔除掉自...
阅读(18) 评论(0)

Spark RDD

RDD是Spark的核心抽象,全称为ResilientDistributedDataSet,弹性分布式数据集 RDD在抽象上来说是一种元素集合的,包含了数据。它是被分区的,分为多个分区的,每个分区分布在集群中的不同节点上,分区即是Partition的,从而让RDD中的数据可以被并行操作的 RDD通常通过Hadoop上的文件,即是HDFS文件来进行创建的,有时也可以通过spark应用程序中的集合来...
阅读(318) 评论(0)

Spark reduce算子

reduce是将RDD中的所有元素进行聚合操作的额,第一个和第二个元素聚合的,值与第三个元素聚合,值与第四个元素聚合的,以此类推的 collect是对RDD中所有元素获取到本地客户端的 count获取RDD中元素总数的 take(n)获取RDD中的前n个元素的 saveAsTextFile是将RDD元素保存到文件中的,对每个元素调用toString方法的 countByKey对每个key对...
阅读(16) 评论(0)

Spark Scala算子

private static void cogroup(){ SparkConf conf=new SparkConf().setAppName("cogroup").setMaster("local"); JavaSparkContext sc=new JavaSparkContext(conf); List<Tuple2> student...
阅读(19) 评论(0)

文章标题

HBase的衍生HBase的产生: HBase的使用场景:当使用随机的读写数据,实时分析数据的时候,收集大量的表,数据的行和列是非常多的 Mysql,Oracle数据库满足不了数据存储的要求时候,数据量大的时候,一个sql语句根本就是查询不出来的额,直接夯住的,数据量大的时候,检索非常长的时间的额 HBase的存储模式跟关系型的数据库的存储模式是不一样的额,属于列式存储的 Mysql,Ora...
阅读(127) 评论(0)

Spark算子

Spark支持俩种RDD操作的:transformation和action的 map操作:将RDD中的每个元素传入自定义函数,获取一个新的元素,然后用新的元素组成新的RDD filter操作:对RDD中每个元素进行判断的,如果返回true则保留的,返回false则剔除掉的 flatMap操作:与map类似的,但是对每个元素都可以返回一个或者是多个元素的 groupByKey操作:根据key进...
阅读(10) 评论(0)

Alluxio

>groupadd−g101dba创建一个组的额,−g指定组ID号>groupadd -g 101 dba创建一个组的额, -g指定组ID号 >useradd -u 514 -g dba -G roo -d /opt/app/mysql mysqladmin //创建一个用户, -u指定用户ID,-G表示的是哪个组的,-d表示的是创建的家目录在哪里 >...
阅读(21) 评论(0)

VMware

#VMware虚拟网络连接三种形式: 1.桥接模式:默认使用是VMnet0 Bridge桥是一个主机的,这个机器拥有俩块网卡的,分别处于俩个局域网中的,同时在桥上的额,运行着程序,让局域网A中的所有数据包原封不动的流入B,反之亦然,这样,局域网A和局域网B就无缝的在链路层链接起来了,在桥接时候,电脑安装的VMware网卡和电脑本身的物理网卡应该处于同一IP网段的,同时也要保证俩个局域网没有设...
阅读(22) 评论(0)

hive

导出Hive表数据到文件系统将select结果写入到本地文件系统中 hive>insert overwrite local directory ‘/home/hadoop/tmp/emp’ row format delimited fields terminated by ‘\t’ select * from emp; 将select结果写入到HDFS文件系统中 h...
阅读(47) 评论(0)

sqoop

导出Hive表数据到文件系统 将select结果写入到本地文件系统中 hive>insert overwrite local directory ‘/home/hadoop/tmp/emp’ row format delimited fields terminated by ‘\t’ select * from emp; 将select结果写入到HDFS文件系统中...
阅读(12) 评论(0)

HBase也疯狂

HBase的衍生 HBase的产生: HBase的使用场景:当使用随机的读写数据,实时分析数据的时候,收集大量的表,数据的行和列是非常多的 Mysql,Oracle数据库满足不了数据存储的要求时候,数据量大的时候,一个sql语句根本就是查询不出来的额,直接夯住的,数据量大的时候,检索非常长的时间的额 HBase的存储模式跟关系型的数据库的存储模式是不一样的额,属于列式存储的 Mysql,...
阅读(19) 评论(0)

CDH

HDP Ambaria Apache CDH的管理界面,各个组件的兼容性,版本升级都是非常好的 CDH:cm的管理器+管理组件的各个组件服务,Hadoop CDH版本的选择: CDH4.x—>4.8.6 CDH5.x—->5.4.8 5.8.0 5.11.0CDH安装几种方式解读: CDH离线方式的部署安装: 最好都是rpm包安装的 rpm包安装的:装当前rp...
阅读(16) 评论(0)

某导航公司SparkStreaming+kafka

监控平台 对Mysql数据库进行监控Zabbix的,shell脚本进行监控,ELK进行监控的 ECS机器(instance实例的) Zabbix监控的Mysql数据库的 需求:Mysql挂了,Mysql shell脚本,预警机制的,5分钟一个粒度, Linux发现Mysql的内存飙高的时候,持续占用的时候,Linux会kill掉Mysql的 代码层面上控制的 加内存的进行调优...
阅读(26) 评论(0)

Hive

数据存储HDFS上是没有schema的信息 schema相当于表里面的列,字段,字段名称,字段与字段之间的分隔符的如何为HDFS上的文件添加Schema信息,添加上去就可以通过SQL的方式进行查询了Hive的数据量是存放在HDFS上 Hive的计算是通过yarn和MapReduce的执行引擎 HiveSQL===翻译mr作业的====提交集群运行的Hive的优点: 简单易上手的,扩展能力较好...
阅读(20) 评论(0)

算法

题目设计一个算法,计算出n阶乘中尾部零的个数 样例: 11!=39916800,因此返回是2 挑战: O(logN)的时间复杂度解题思路将1*2*3*4*5…N中的每个因数进行分解质因数,10可以分解为2*5,因此只有质数2*5才能产生0,其余任意俩个质数相乘均不能产生0,且2*5只可以产生一个0,因此对阶乘中相乘的各数进行分解质因数,分解之后的式子有几对2*5就有几个0,又由于2的个数显然...
阅读(250) 评论(0)

HDFS

NameNode负责管理整个文件系统的原数据 DataNode负责管理用户的文件数据块 文件会按照固定的大小blocksize切成若干块后分布式存储在若干台DataNode上的 每一个文件块可以有多个副本,并存放在不同的DataNode上的 DataNode会定期向NameNode汇报自身保存的block信息,而NameNode则会负责保持文件的副本数量 HDFS的内部工作机制对客户端保持...
阅读(33) 评论(0)

远程调试JVM(NameNode进程)

通过远程调试JVM来跟踪job在Hadoop集群环境中的执行过程。以达到源码跟踪的目的,在本文中调试NameNode的程序进行JVM远程调试查看java远程调试的帮助c:/>java -agentlib:jdwp=help设java虚拟机的远程调试java -agentlib:jdwp=transport=dt_socket,server=y,suspend=y,address=8000 //设...
阅读(22) 评论(0)

CommonJoin和MapJoin

CommonJoin和MapJoin简介CommonJoin即是传统思路实现Join的方法,性能差,涉及到了shuffle的过程 CommonJoin/shuffleJoin/reduceJoin都是指同一个的 MapJoin也叫做BroadCastJoin,但是MapJoin是不会有reduce阶段和shuffle阶段重点对CommonJoin和MapJoin实现,通过MapReduce实现的...
阅读(31) 评论(0)
26条 共2页1 2 下一页 尾页
    个人资料
    • 访问:1181次
    • 积分:265
    • 等级:
    • 排名:千里之外
    • 原创:20篇
    • 转载:0篇
    • 译文:6篇
    • 评论:0条
    文章分类
    文章存档