自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

mischen520的博客

技术成就梦想

  • 博客(65)
  • 资源 (17)
  • 收藏
  • 关注

原创 Spark的特点

2021-05-30 09:53:04 83

原创 Spark内置模块简介

Spark Core:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet,简称RDD)的API定义。Spark SQL:是Spark用来操作结构化数据的程序包。通过Spark SQL,我们可以使用 SQL或者Apache Hive版本的HQL来查询数据。Spark SQL支持多种数据源,比如Hive表、Parquet以及JSON等。Spark Stream..

2021-05-30 09:51:23 499

原创 什么是Spark?

1.1 什么是Spark回顾:Hadoop主要解决,海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。1.2 Hadoop与Spark历史

2021-05-30 09:45:11 174

原创 什么是Phoenix?

6.1.1Phoenix定义Phoenix是HBase的开源SQL皮肤。可以使用标准JDBC API代替HBase客户端API来创建表,插入数据和查询HBase数据。6.1.2Phoenix特点1)容易集成:如Spark,Hive,Pig,Flume和Map Reduce;2)操作简单:DML命令以及通过DDL命令创建和操作表和版本化增量更改;3)支持HBase二级索引创建。6.1.3Phoenix架构...

2021-05-30 09:11:32 375

原创 HBase与Hive的对比

1.Hive(1) 数据分析工具Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系,以方便使用HQL去管理查询。(2) 用于数据分析、清洗Hive适用于离线的数据分析和清洗,延迟较高。(3) 基于HDFS、MapReduceHive存储的数据依旧在DataNode上,编写的HQL语句终将是转换为MapReduce代码执行。2.HBase(1) 数据库是一种面向列族存储的非关系型数据库。(2) 用于存储结构化和非结构化的数据适用于单表

2021-05-30 09:00:59 89

原创 HBase生产优化

5.1预分区每一个region维护着startRow与endRowKey,如果加入的数据符合某个region维护的rowKey范围,则该数据交给这个region维护。那么依照这个原则,我们可以将数据所要投放的分区提前大致的规划好,以提高HBase性能。1.手动设定预分区hbase> create 'staff1','info',SPLITS => ['1000','2000','3000','4000']2.生成16进制序列预分区create 'staff2','info'.

2021-05-29 10:03:40 240

原创 Region Split

默认情况下,每个Table起初只有一个Region,随着数据的不断写入,Region会自动进行拆分。刚拆分时,两个子Region都位于当前的RegionServer,但处于负载均衡的考虑,HMaster有可能会将某个Region转移给其他的RegionServer。RegionSplit时机:1.当1个region中的某个Store下所有StoreFile的总大小超过hbase.hregion.max.filesize,该Region就会进行拆分(0.94版本之前)。2.当1个region...

2021-05-29 09:51:35 298

原创 StoreFile Compaction

由于memstore每次刷写都会生成一个新的HFile,且同一个字段的不同版本(timestamp)和不同类型(Put/Delete)有可能会分布在不同的HFile中,因此查询时需要遍历所有的HFile。为了减少HFile的个数,以及清理掉过期和删除的数据,会进行StoreFileCompaction。Compaction分为两种,分别是MinorCompaction和MajorCompaction。MinorCompaction会将临近的若干个较小的HFile合并成一个较大的HFile,并清理...

2021-05-29 09:41:49 133

原创 Hbase读数据详细流程

1)整体流程2)Merge细节读流程1)Client先访问zookeeper,获取hbase:meta表位于哪个RegionServer。2)访问对应的Region Server,获取hbase:meta表,根据读请求的namespace:table/rowkey,查询出目标数据位于哪个RegionServer中的哪个Region中。并将该table的region信息以及meta表的位置信息缓存在客户端的meta cache,方便下次访问。3)与目标RegionServer...

2021-05-29 09:34:10 301

原创 Hbase常用表操作

2.2.1基本操作1.进入HBase客户端命令行[mischen@hadoop102 hbase]$ bin/hbase shell2.查看帮助命令hbase(main):001:0> help2.2.2namespace的操作1.查看当前Hbase中有哪些namespacehbase(main):002:0> list_namespaceNAMESPACE ...

2021-05-29 09:11:45 926

原创 HBase高可用设计

在HBase中HMaster负责监控HRegionServer的生命周期,均衡RegionServer的负载,如果HMaster挂掉了,那么整个HBase集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。所以HBase支持对HMaster的高可用配置。1.关闭HBase集群(如果没有开启则跳过此步)[mischen@hadoop102 hbase]$ bin/stop-hbase.sh2.在conf目录下创建backup-masters文件[mischen@hadoop102 hba

2021-05-27 01:19:55 102

原创 Hadoop生产调优手册(根据企业实际开发需求做详细说明)

我们举一个简单的需求例子来说明如何进行Hadoop生产调优,需求(1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。(2)需求分析:1G/ 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster平均每个节点运行10个/ 3台 ≈3个任务(4 3 3)HDFS参数调优(1)修改:hadoop-env.shexport HDFS_NAMENODE_OPTS="-Dhadoop.security.l...

2021-05-26 20:26:30 230

原创 如何配置HDFS纠删码策略?

纠删码策略是给具体一个路径设置。所有往此路径下存储的文件,都会执行此策略。默认只开启对RS-6-3-1024k策略的支持,如要使用别的策略需要提前启用。1)需求:将/input目录设置为RS-3-2-1024k策略2)具体步骤(1)开启对RS-3-2-1024k策略的支持[mischen@hadoop102 hadoop-3.1.3]$ hdfs ec -enablePolicy -policy RS-3-2-1024kErasure coding policy RS-3-2..

2021-05-26 19:38:34 875

原创 HDFS纠删码原理以及为什么要引入纠删码?

近些年,随着大数据技术的发展,HDFS作为Hadoop的核心模块之一得到了广泛的应用。然而,随着需要存储的数据被越来越快的产生,越来越高的HDFS存储利用率要求被提出。而对于一个分布式文件系统来说,可靠性必不可少。因此,在HDFS中每一份数据都有两个副本,这也使得存储利用率仅为1/3,每TB数据都需要占用3TB的存储空间。因此,在保证可靠性的前提下如何提高存储利用率已成为当前HDFS应用的主要问题之一。纠删码技术起源于通信传输领域,后被逐渐运用到存储系统中。它对数据进行分块,然后计算出一些冗余的校验块。

2021-05-26 19:28:15 1223

原创 HDFS配置服务器间数据均衡

1)企业经验:在企业开发中,如果经常在hadoop102和hadoop104上提交任务,且副本数为2,由于数据本地性原则,就会导致hadoop102和hadoop104数据过多,hadoop103存储的数据量小。另一种情况,就是新服役的服务器数据量比较少,需要执行集群均衡命令。2)开启数据均衡命令:[mischen@hadoop105 hadoop-3.1.3]$ sbin/start-balancer.sh -threshold 10对于参数10,代表的是集群中各个节点的磁盘.

2021-05-26 18:37:08 346

原创 HDFS添加白名单详细操作步骤

白名单:表示在白名单的主机IP地址可以,用来存储数据。企业中:配置白名单,可以尽量防止黑客恶意访问攻击。配置白名单步骤如下:1)在NameNode节点的/opt/module/hadoop-3.1.3/etc/hadoop目录下分别创建whitelist 和blacklist文件(1)创建白名单vimwhitelist在whitelist中添加如下主机名称,假如集群正常工作的节点为102 103hadoop102hadoop103(2)创建黑名单touch..

2021-05-26 08:31:31 741 1

原创 Zookeeper写数据流程

2021-05-25 07:03:55 130

原创 Zookeeper的选举机制(面试重点)

(1)半数机制:集群中半数以上机器存活,集群可用。所以Zookeeper适合安装奇数台服务器。(2)Zookeeper虽然在配置文件中并没有指定Master和Slave。但是,Zookeeper工作时,是有一个节点为Leader,其他则为Follower,Leader是通过内部的选举机制临时产生的。(3)以一个简单的例子来说明整个选举的过程。假设有五台服务器组成的Zookeeper集群,它们的id从1-5,同时它们都是最新启动的,也就是没有历史数据,在存放数据量这一点上,都是一样的。假设这些服务

2021-05-25 06:56:45 127

原创 Zookeeper的工作机制

Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。Zookeeper从设计模式角度来理解,是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生了变化,Zookeeper就负责通知已经在Zookeeper上注册的那些观察者做出相应的反应。...

2021-05-25 06:49:22 318

原创 Reduce Join案例实操

Map端的主要工作:为来自不同表或文件的key/value对,打标签以区别不同来源的记录。然后用连接字段作为key,其余部分和新加的标志作为value,最后进行输出。Reduce端的主要工作:在Reduce端以连接字段作为key的分组已经完成,我们只需要在每一个分组当中将那些来源于不同文件的记录(在Map阶段已经打标志)分开,最后进行合并就ok了。代码实现(1)创建商品和订单合并后的TableBean类package com.mischen.mapreduce.wordco

2021-05-22 09:42:29 223

原创 HBase与Hive的比较

1.Hive(1) 数据分析工具Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系,以方便使用HQL去管理查询。(2) 用于数据分析、清洗Hive适用于离线的数据分析和清洗,延迟较高。(3) 基于HDFS、MapReduceHive存储的数据依旧在DataNode上,编写的HQL语句终将是转换为MapReduce代码执行。2.HBase(1) 数据库是一种面向列族存储的非关系型数据库。(2) 用于存储结构化和非结构化的数据适用于单表

2021-05-21 06:31:55 148

原创 MemStore Flush

MemStore刷写时机:1.当某个memstore的大小达到了hbase.hregion.memstore.flush.size(默认值128M),其所在region的所有memstore都会刷写。当memstore的大小达到了hbase.hregion.memstore.flush.size(默认值128M)*hbase.hregion.memstore.block.multiplier(默认值4)时,会阻止继续往该memstore写数据。2.当region server中...

2021-05-20 07:09:51 233

原创 HBase写数据流程

写流程:1)Client先访问zookeeper,获取hbase:meta表位于哪个RegionServer。2)访问对应的Region Server,获取hbase:meta表,根据读请求的namespace:table/rowkey,查询出目标数据位于哪个RegionServer中的哪个Region中。并将该table的region信息以及meta表的位置信息缓存在客户端的meta cache,方便下次访问。3)与目标RegionServer进行通讯;4)将数据顺序写入(追加)...

2021-05-20 06:59:33 861

原创 RegionServer 架构

1)StoreFile保存实际数据的物理文件,StoreFile以Hfile的形式存储在HDFS上。每个Store会有一个或多个StoreFile(HFile),数据在每个StoreFile中都是有序的。2)MemStore写缓存,由于HFile中的数据要求是有序的,所以数据是先存储在MemStore中,排好序后,等到达刷写时机才会刷写到HFile,每次刷写都会形成一个新的HFile。3)WAL由于数据要经MemStore排序后才能刷写到HFile,但把数据保存在内存中会有很高的概率..

2021-05-20 06:51:40 248 1

原创 HBase基本架构

架构角色:1)RegionServerRegionServer为 Region的管理者,其实现类为HRegionServer,主要作用如下:对于数据的操作:get, put, delete;对于Region的操作:splitRegion、compactRegion。2)MasterMaster是所有RegionServer的管理者,其实现类为HMaster,主要作用如下:对于表的操作:create, delete, alter对于RegionServer的操作:分配...

2021-05-20 06:42:05 130

原创 HBase数据模型

逻辑上,HBase的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从HBase的底层物理存储结构(K-V)来看,HBase更像是一个multi-dimensional map。1.2.2 HBase物理存储结构1.2.3数据模型1)Name Space命名空间,类似于关系型数据库的database概念,每个命名空间下有多个表。HBase两个自带的命名空间,分别是hbase和default,hbase中存放的是HBase内置的表,default表是用户默认使用的命名空.

2021-05-20 06:35:49 307

原创 graphics生成图片带表格

1.图片实现效果:2.直接上示例代码:package com.mischen.mapreduce.wordcount;import com.sun.image.codec.jpeg.JPEGCodec;import com.sun.image.codec.jpeg.JPEGImageEncoder;import java.awt.*;import java.awt.image.BufferedImage;import java.io.BufferedOutputStream;i

2021-05-16 22:50:41 856 1

原创 poi-tl怎样在word中添加图片并使图片居中

1.在pom.xml文件中导入poi-tl: <dependency> <groupId>com.deepoove</groupId> <artifactId>poi-tl</artifactId> <version>1.9.1</version> </dependency>2.编写测试类:.

2021-05-14 23:37:17 1661

原创 poi-tl怎样在word中添加图片(附详细java代码)

1.在pom.xml文件中导入poi-tl: <dependency> <groupId>com.deepoove</groupId> <artifactId>poi-tl</artifactId> <version>1.9.1</version> </dependency>2.编写测试类:package co

2021-05-14 23:29:56 2665

原创 利用poi实现多个word之间的合并(包括图片、表格、样式都不丢失)

最近项目上经常操作word,之前一直用的freemarker这个框架,在网上搜寻了大量的资料,都推荐使用poi-tl这个工具来实现,这里我就自己写了一个demo,亲自测试了一下,这个word合并果然简单靠谱,需要注意的是:需要使用jdk1.8以上的来进行编译主要步骤:1.导入poi-tl包:<dependency> <groupId>com.deepoove</groupId> <artifact

2021-05-13 23:43:19 4146 4

原创 FastDFS和mogileFS对比

2021-05-12 23:23:10 114

原创 FastDFS和集中存储方式对比

2021-05-12 23:22:06 148

原创 FastDFS高可用集群架构图

2021-05-12 23:17:59 299

原创 什么是FastDFS?

FastDFS是一个轻量级的开源分布式文件系统FastDFS主要解决了大容量的文件存储和高并发访问的问题,文件存取时实现了负载均衡FastDFS实现了软件方式的RAID,可以使用廉价的IDE硬盘进行存储 支持存储服务器在线扩容 支持相同内容的文件只保存一份,节约磁盘空间FastDFS只能通过Client API访问,不支持POSIX访问方式FastDFS特别适合大中型网站使用,用来存储资源文件(如:图片、文档、音频、视频等等)...

2021-05-12 23:10:51 738

原创 NameNode心跳并发配置

1)hdfs-site.xmlThe number of Namenode RPC server threads that listen to requests from clients. If dfs.namenode.servicerpc-address is not configured then Namenode RPC server threads listen to requests from all nodes.NameNode有一个工作线程池,用来处理不同DataNode的并发心..

2021-05-09 10:26:25 626

原创 NameNode内存生产配置探究

1)NameNode内存计算每个文件块大概占用150byte,一台服务器128G内存为例,能存储多少文件块呢?128 * 1024 * 1024 * 1024 / 150Byte ≈9.1亿G MB KB Byte2)Hadoop2.x系列,配置NameNode内存NameNode内存默认2000m,如果服务器内存4G,NameNode内存可以配置3g。在hadoop-env.sh文件中配置如下。HADOOP_NAMENODE_OPTS=-Xmx3072m3)Hadoo...

2021-05-09 10:01:08 1386

原创 什么是公平调度器(Fair Scheduler)?

Fair Schedulere是Facebook开发的多用户调度器。公平调度器队列资源分配方式:公平调度器资源分配算法:

2021-05-09 09:03:13 3230

原创 什么是容量调度器(Capacity Scheduler)?

Capacity Scheduler是Yahoo开发的多用户调度器。

2021-05-09 08:44:04 1195

原创 yarn作业提交详细过程

(1)作业提交第1步:Client调用job.waitForCompletion方法,向整个集群提交MapReduce作业。第2步:Client向RM申请一个作业id。第3步:RM给Client返回该job资源的提交路径和作业id。第4步:Client提交jar包、切片信息和配置文件到指定的资源提交路径。第5步:Client提交完资源后,向RM申请运行MrAppMaster。(2)作业初始化第6步:当RM收到Client的请求后,将该job添加到容量调度器中。第7步:某一个空

2021-05-09 05:53:01 631

原创 Yarn的工作机制

(1)MR程序提交到客户端所在的节点。(2)YarnRunner向ResourceManager申请一个Application。(3)RM将该应用程序的资源路径返回给YarnRunner。(4)该程序将运行所需资源提交到HDFS上。(5)程序资源提交完毕后,申请运行mrAppMaster。(6)RM将用户的请求初始化成一个Task。(7)其中一个NodeManager领取到Task任务。(8)该NodeManager创建容器Container,并产生MRAppmaster。..

2021-05-09 05:42:28 147

redis-2.6.zip

redis测试开发使用,直接在windows安装即可使用,需要的小伙伴们可以下载哦

2019-06-05

SecureCRT.exe

一款非常好用的支持ssh的连接工具,不要注册码的安装,安装好以后可以直接使用

2017-01-18

mysql64位安装工具

一款非常还用的MySQL,支持64位操作系统

2017-01-18

mysql-5.5.40-win32安装包

非常好用的mysql数据库,简单易装

2017-01-18

远程连接服务器工具SFTP

一款非常好用的连接服务器的工具,支持快速上传和下载

2017-01-18

登陆注册界面实现

登陆注册界面实现

2016-08-03

servlet作为服务器响应请求.zip

servlet作为服务器登陆注册界面的实现,非常有用的一段代码。

2016-07-14

用js写的163登陆界面系统

用js写的163登陆界面系统,所有功能几乎都已完善,只有少许有待优化

2016-07-11

apache-tomcat-6.0.18.exe

2016-07-11

MyEclipse10.1破解工具及方法图解.zip

2016-07-10

mysql-connector-java-5.1.26.jar

mysql-connector-java-5.1.26.jar,支持mysql 5.0

2016-06-28

commons-logging-1.2-bin.zip

2016-06-26

eclipse4.5.1.exe

只支持32位windows系统

2016-06-26

eclipse-inst-win32.zip

只支持32位windows操作系统

2016-06-25

net.sf.jadclipse压缩包

一款非常耐用的java反编译器,下载非常方便

2016-06-23

mysql中文学习手册

mysql中文学习手册,很值得一看哦!

2016-06-23

mysql 5.0资源下载

非常好用的一个mysql 5.0的配置文件,欢迎下载

2016-06-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除