大数据/Linux
文章平均质量分 86
eeeat_fish
这个作者很懒,什么都没留下…
展开
-
HBASE--API
1.创建连接和admin使用静态方法块,每次只连接一次。 private static Admin admin=null; private static Connection connection=null; static { try { //1.获取配置文件信息 Configuration configurat...原创 2019-12-17 20:23:56 · 254 阅读 · 0 评论 -
HBASE--数据的删除和切分
HBASE–数据的删除和切分数据的删除数据的真正删除发生在两个部分:flush和compactionflush当对一个RowKey的数据进行两次写入的时候,这两条记录都在内存中还未flush进磁盘。当flush过后,时间戳在前的数据就会被删掉。put 'stu','1001','info:name','eatfish'put 'stu','1001','info:name','fish...原创 2019-12-06 23:17:34 · 577 阅读 · 0 评论 -
HBASE--详细架构&数据读写
详细架构:底层依赖于HDFSHbase依赖于Zookeeper,Zookeeper分担了HMaster一部分操作(读写数据DML部分),客户端只和ZK交互RegionServer用来维护Region的HLog类似于HDFS中的edits文件,方式数据的丢失store分为内存store和store file,内存store通过刷写写成一个个store file,存在HDFS中写流程...原创 2019-12-06 21:13:06 · 276 阅读 · 0 评论 -
HBASE--命令行操作
进入命令行模式[us@hadoop102 hbase-2.1.7]$ bin/hbase shellDDL–对表的基本操作创建一张表最少一定要有一个列族hbase(main):003:0> create 'student','info','info2'修改版本数查看版本情况hbase(main):006:0> describe 'student'修改成3...原创 2019-11-30 23:42:34 · 781 阅读 · 0 评论 -
HBASE基本介绍和安装配置
1.HBASE的逻辑结构2.HBASE的物理结构真正在存储的过程中是按照如下的格式存储的:图片中张三的信息被存为三条内容,第四条内容为对“phone”进行修改,其时间戳和增加信息时的时间戳不同。使用时需要把Windows和Linux的系统时间进行同步3.数据模型3.1 Name Space命名空间,类似于关系数据库中的database的概念,每个命名空间下有多个表,HBASE有两...原创 2019-11-29 21:14:05 · 205 阅读 · 0 评论 -
Spark流程的内部实现
Spark流程的内部实现1 Spark核心组件回顾1.1 DriverSpark驱动器节点,用于执行Spark任务中的main方法,负责实际代码的执行工作。Driver在Spark作业执行时主要负责:将用户程序转化为job在executor中间进行调度任务(task)跟踪executor的执行情况通过UI展示查询运行情况1.2 ExecutorExecutor实际上是一个JV...原创 2019-10-21 15:00:30 · 213 阅读 · 0 评论 -
Spark源码-部署流程
Spark的部署流程上图在新版的spark源码中有些许调整,但只是一些参数和函数位置的调整,整体流程还是这样的。原创 2019-10-20 15:25:45 · 228 阅读 · 0 评论 -
DStream的转化和输出
DStream的转化和输出1.无状态的转化处理只关心当前采集周期内的数据,上个周期采集到的数据不做保留和处理2.有状态的转化如上图,第一个采集周期5s内的数据,如果需要拿去和第二个5s内的数据进行交互,就叫做有状态的转换。否则就是无状态的操作。例子:依旧是统计单词的个数,之前只能统计一个采集周期内的单词的个数,现在可以统计所有的单词的个数。需要注意的点:使用updateStat...原创 2019-10-19 21:34:58 · 1648 阅读 · 0 评论 -
SparkStreaming-实时数据采集
1.SparkStreaming的架构2.实例一个实时计算的wordcountobject WordCount { def main(args: Array[String]): Unit = { //使用sparkstreaming来完成wordcount //spark的配置对象 val conf = new SparkConf().setMaster("l...原创 2019-10-19 15:34:28 · 909 阅读 · 0 评论 -
spark之累加器和广播变量
spark的三大数据结构RDD:分布式数据集广播变量:分布式只读共享变量累加器:分布式只写共享变量例子:对一个list中的所有值进行相加首先上图中红色部分框出来的代码,看上去逻辑没有什么大问题,但是输出的结果sum=0。这是因为,sum在Driver中被定义,在不同的executor中计算,每个executor得到值既不能彼此相加,也不能传回Driver输出,所以导致Driver中su...原创 2019-10-17 16:00:30 · 271 阅读 · 0 评论 -
Spark之RDD
Spark之RDD在介绍RDD之前,先从java的IO讲起会比较容易理解1.Java IOJava的输入可以分为字节流输入(rar,zip,dot,png,jpg)和字符流输入(txt)现有创建一个字节流输入://文件输入流InputStream in = new FileInputStream("XXXX");这样输入很慢很慢,所以就有了下面的缓冲流InputStream b...原创 2019-10-14 23:55:36 · 401 阅读 · 0 评论 -
Spark之概述和集群的部署
1.spark的历史1.1 Hadoop:提到spark就要提到Hadoop,Hadoop里程碑式的一点就是发布了Hadoop2.X,提出了yarn。yarn做的工作,就是把资源调度和任务调度完全的解耦了,这样整个框架的和拓展性就大大的增强了。不然按Hadoop1.X的版本,MapReduce是和Hadoop完全耦合的,是无法被替换的。1.2 sparkspark是基于Hadoop1...原创 2019-10-03 16:53:25 · 128 阅读 · 0 评论 -
SecureCRT的配置
SecureCRT的配置1. 安装关于SecureCRT的安装和破解可以参考下面这篇文章,除了文章中的版本,secureCRT8.5也亲测有效.https://blog.csdn.net/xxujia/article/details/813488482. 连接2.1 新建会话:2.2 输入主机名和用户名主机名可以在linux中使用命令ifconfig来查看端口号就是22点...原创 2019-07-25 21:57:25 · 251 阅读 · 0 评论 -
Linux的一些笔记(指令)
VIM切换到某一行:set nu#回车20 #到第二十行shift+g#回车G #定位到首行gg #定位到最后一行u #撤销上一步的操作用户管理用户的配置文件(用户信息)---------/etc/passwd组配置文件(组信息)--------/etc/group口令配置文件(密码和登录信息,加密文件)--------/etc/shadowlog...原创 2019-07-28 00:12:24 · 235 阅读 · 0 评论 -
Hadoop的简介、安装配置和集群搭建(hadoop2.7.7)
1.框架介绍1.1 HDFSNameNode:存储文件的元数据,如文件名,文件目录结构,文件属性,以及每个文件的块列表和块所在的DataNode等。等于就是一个目录,DataNode:在本地文件系统存储文件块数据,以及块数据的校验和。Secondary NameNode:用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS远数据的快照。类似于NameNode的副本。1.2 ...原创 2019-09-01 17:05:34 · 1627 阅读 · 0 评论 -
Hadoop之HDFS
1.HDFS的概述–Hadoop Distributed File System1.1 HDFS的使用场景:适合一次写入,多次读出的场景,并且不支持文件的修改。适合用来做数据分析,不适合用来做网盘应用。1.2 优缺点1.2.1 优点:高容错性:自动保存多个副本,某个副本丢失后,可以自动回复适合处理大数据:能处理GB、TB、甚至PB级别的数据。能处理百万规模以上的文件数量。可构建...原创 2019-09-09 17:25:50 · 226 阅读 · 0 评论 -
Windows下hadoop的配置(hadoop2.7.7)
1.上次linux配置时下载的hadoop包,解压到一个文件夹里(不要带中文)下载地址:Hadoop2.7.72.下载JavaJDK的Windows版本JavaJDK安装到一个文件夹中,记住目录不要含有空格3.配置环境变量:3.1 在系统变量中增加一个HADOOP_HOME,地址是解压后文件夹的地址3.2 再在系统变量的Path中增加一句话3.3 在系统变量中增加一个JAVA...原创 2019-09-10 16:06:43 · 2673 阅读 · 0 评论 -
Hadoop之MapReduce
1:MapReduce概述1.1 MapReduce定义MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。1.2 MapReduce的优缺点1.2.1 优点–简单1.2.1.1 MapReduce易于...原创 2019-09-16 23:00:12 · 549 阅读 · 0 评论 -
Hadoop之MapReduce---自定义InputFormat
自定义InputFormat的代码实现无论HDFS还是MapReduce,在处理小文件时效率都很低,可以自定义InputFormat实现小文件的合并。1. 需求将多个小文件合并成一个SequenceFile文件,SequenceFile里面储存着多个文件,存储的形式为:文件路径+名称=key,文件内容=value。2. 输入准备几个文件,名字内容随便,放入input文件夹中。one.t...原创 2019-09-18 19:51:39 · 317 阅读 · 0 评论 -
Hadoop之MapReduce---Shuffle的详细工作流程
接文章:Hadoop之MapReduce3.2 Shuffle的详细工作流程在经过了上述过程之后,可以了解一下详细的Shuffle的工作流程。3.2.1 Shuffle的前半部分客户端提交给yarn,然后yarn给一个id,客户端把信息提交后,yarn再继续任务要开几个MapTask是由Yarn决定的(切片数量)。一个RecordReader只处理一个切片,一个MapTask也只对应...原创 2019-09-21 14:50:32 · 2236 阅读 · 0 评论 -
Hadoop之数据压缩
Hadoop之数据压缩1.概述压缩技术能够有效的减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在运行MR程序时,I/O操作、网络数据传输、Shuffle和Merge要花大量时间,有其是数据规模很大和工作负载密集的情况下,因此,使用数据压缩显得非常重要。可以在MapReduce的任意阶段启用压缩。不过,但是它对性能的提升和节省并非没有代价–增加了CPU的负担。压...原创 2019-09-23 22:44:11 · 190 阅读 · 0 评论 -
Hadoop之Yarn资源调度器
Hadoop之Yarn资源调度器Yarn是一个资源平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作平台,而MapReduce等运算程序相当于运行于操作系统之上的应用程序。是Hadoop2.X之后才增加的新功能。1.基本架构Yarn主要由:ResourceManager、NodeManager、ApplicationMaster和Container等组件构成简单来说:Reso...原创 2019-09-24 15:24:23 · 214 阅读 · 0 评论 -
Hadoop之优化策略
Hadoop之优化策略1.MapReduce速度慢的原因MapReduce程序效率的瓶颈在于两点:计算机性能IO操作优化a. 数据倾斜b. Map和Reduce数设置不合理c. Map运行时间太长,导致Reduce等待过久d. 小文件过多e. 大量的不可分块的超大文件f. 溢写的次数过多g. merge(归并)的次数过多2.MapReduce优化方法MapReduce...原创 2019-09-25 23:07:35 · 244 阅读 · 0 评论 -
MapReduce扩展案例
MapReduce扩展案例1.倒排索引案例(job的串联)需求:现在有下面三个文件,需要建立搜索索引期望的输出是(带索引的wordcount):us c.txt–>2 b.txt–>2 a.txt–>3seoho c.txt–>1 b.txt–>3 a.txt–>1tomoon c.txt–>1 b.txt–>1 a.txt–>...原创 2019-09-26 17:08:36 · 236 阅读 · 0 评论 -
Hadoop总结---相关面试题
Hadoop总结—相关面试题1. 入门1.1 简要描述如何安装配置Apache的一个开源hadoop使用root账户登录修改ip修改host主机配置SSH免密登录关闭防火墙(1-5可以简单说成准备一台服务器)安装JDK解压Hadoop安装包配置Hadoop核心文件:hadoop-env.sh,core-site.xml,mapred-site.xml,hdfs-site.xm...原创 2019-09-29 22:09:27 · 354 阅读 · 0 评论 -
配置Xshell6.0和Xftp6.0(CentOs 7)
配置Xshell和Xftp1. 下载Xshell和Xftp进入官网:https://www.netsarang.com/选择免费版下载:填写以下个人信息,下载地址会分两次发送到你的邮箱:2. 安装Xshell傻瓜式安装,同意条约-下一步-下一步-完成3. 连接Xshell和Linux3.1 新建会话3.2 查看虚拟机的ip在linux使用ifconfig来查看ip3....原创 2019-07-25 21:05:40 · 304 阅读 · 0 评论