2021年05月_mischen520

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

Spark Core：实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet，简称RDD)的API定义。Spark SQL：是Spark用来操作结构化数据的程序包。通过Spark SQL，我们可以使用 SQL或者Apache Hive版本的HQL来查询数据。Spark SQL支持多种数据源，比如Hive表、Parquet以及JSON等。Spark Stream..

2021-05-30 09:51:23 499

原创什么是Spark？

1.1 什么是Spark回顾：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。1.2 Hadoop与Spark历史

2021-05-30 09:45:11 174

原创什么是Phoenix？

6.1.1Phoenix定义Phoenix是HBase的开源SQL皮肤。可以使用标准JDBC API代替HBase客户端API来创建表，插入数据和查询HBase数据。6.1.2Phoenix特点1）容易集成：如Spark，Hive，Pig，Flume和Map Reduce；2）操作简单：DML命令以及通过DDL命令创建和操作表和版本化增量更改；3）支持HBase二级索引创建。6.1.3Phoenix架构...

2021-05-30 09:11:32 375

原创 HBase与Hive的对比

1.Hive(1) 数据分析工具Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系，以方便使用HQL去管理查询。(2) 用于数据分析、清洗Hive适用于离线的数据分析和清洗，延迟较高。(3) 基于HDFS、MapReduceHive存储的数据依旧在DataNode上，编写的HQL语句终将是转换为MapReduce代码执行。2．HBase(1) 数据库是一种面向列族存储的非关系型数据库。(2) 用于存储结构化和非结构化的数据适用于单表

2021-05-30 09:00:59 89

原创 HBase生产优化

5.1预分区每一个region维护着startRow与endRowKey，如果加入的数据符合某个region维护的rowKey范围，则该数据交给这个region维护。那么依照这个原则，我们可以将数据所要投放的分区提前大致的规划好，以提高HBase性能。1.手动设定预分区hbase> create 'staff1','info',SPLITS => ['1000','2000','3000','4000']2.生成16进制序列预分区create 'staff2','info'.

2021-05-29 10:03:40 240

原创 Region Split

默认情况下，每个Table起初只有一个Region，随着数据的不断写入，Region会自动进行拆分。刚拆分时，两个子Region都位于当前的RegionServer，但处于负载均衡的考虑，HMaster有可能会将某个Region转移给其他的RegionServer。RegionSplit时机：1.当1个region中的某个Store下所有StoreFile的总大小超过hbase.hregion.max.filesize，该Region就会进行拆分（0.94版本之前）。2.当1个region...

2021-05-29 09:51:35 298

原创 StoreFile Compaction

由于memstore每次刷写都会生成一个新的HFile，且同一个字段的不同版本（timestamp）和不同类型（Put/Delete）有可能会分布在不同的HFile中，因此查询时需要遍历所有的HFile。为了减少HFile的个数，以及清理掉过期和删除的数据，会进行StoreFileCompaction。Compaction分为两种，分别是MinorCompaction和MajorCompaction。MinorCompaction会将临近的若干个较小的HFile合并成一个较大的HFile，并清理...

2021-05-29 09:41:49 133

原创 Hbase读数据详细流程

1）整体流程2）Merge细节读流程1）Client先访问zookeeper，获取hbase:meta表位于哪个RegionServer。2）访问对应的Region Server，获取hbase:meta表，根据读请求的namespace:table/rowkey，查询出目标数据位于哪个RegionServer中的哪个Region中。并将该table的region信息以及meta表的位置信息缓存在客户端的meta cache，方便下次访问。3）与目标RegionServer...

2021-05-29 09:34:10 301

原创 Hbase常用表操作

2.2.1基本操作1．进入HBase客户端命令行[mischen@hadoop102 hbase]$ bin/hbase shell2．查看帮助命令hbase(main):001:0> help2.2.2namespace的操作1．查看当前Hbase中有哪些namespacehbase(main):002:0> list_namespaceNAMESPACE ...

2021-05-29 09:11:45 926

原创 HBase高可用设计

在HBase中HMaster负责监控HRegionServer的生命周期，均衡RegionServer的负载，如果HMaster挂掉了，那么整个HBase集群将陷入不健康的状态，并且此时的工作状态并不会维持太久。所以HBase支持对HMaster的高可用配置。1.关闭HBase集群（如果没有开启则跳过此步）[mischen@hadoop102 hbase]$ bin/stop-hbase.sh2.在conf目录下创建backup-masters文件[mischen@hadoop102 hba

2021-05-27 01:19:55 102

原创 Hadoop生产调优手册（根据企业实际开发需求做详细说明）

我们举一个简单的需求例子来说明如何进行Hadoop生产调优，需求（1）需求：从1G数据中，统计每个单词出现次数。服务器3台，每台配置4G内存，4核CPU，4线程。（2）需求分析：1G/ 128m = 8个MapTask；1个ReduceTask；1个mrAppMaster平均每个节点运行10个/ 3台 ≈3个任务（4 3 3）HDFS参数调优（1）修改：hadoop-env.shexport HDFS_NAMENODE_OPTS="-Dhadoop.security.l...

2021-05-26 20:26:30 230

原创如何配置HDFS纠删码策略？

纠删码策略是给具体一个路径设置。所有往此路径下存储的文件，都会执行此策略。默认只开启对RS-6-3-1024k策略的支持，如要使用别的策略需要提前启用。1）需求：将/input目录设置为RS-3-2-1024k策略2）具体步骤（1）开启对RS-3-2-1024k策略的支持[mischen@hadoop102 hadoop-3.1.3]$ hdfs ec -enablePolicy -policy RS-3-2-1024kErasure coding policy RS-3-2..

2021-05-26 19:38:34 875

原创 HDFS纠删码原理以及为什么要引入纠删码？

近些年，随着大数据技术的发展，HDFS作为Hadoop的核心模块之一得到了广泛的应用。然而，随着需要存储的数据被越来越快的产生，越来越高的HDFS存储利用率要求被提出。而对于一个分布式文件系统来说，可靠性必不可少。因此，在HDFS中每一份数据都有两个副本，这也使得存储利用率仅为1/3，每TB数据都需要占用3TB的存储空间。因此，在保证可靠性的前提下如何提高存储利用率已成为当前HDFS应用的主要问题之一。纠删码技术起源于通信传输领域，后被逐渐运用到存储系统中。它对数据进行分块，然后计算出一些冗余的校验块。

2021-05-26 19:28:15 1223

原创 HDFS配置服务器间数据均衡

1）企业经验：在企业开发中，如果经常在hadoop102和hadoop104上提交任务，且副本数为2，由于数据本地性原则，就会导致hadoop102和hadoop104数据过多，hadoop103存储的数据量小。另一种情况，就是新服役的服务器数据量比较少，需要执行集群均衡命令。2）开启数据均衡命令：[mischen@hadoop105 hadoop-3.1.3]$ sbin/start-balancer.sh -threshold 10对于参数10，代表的是集群中各个节点的磁盘.

2021-05-26 18:37:08 346

原创 HDFS添加白名单详细操作步骤

白名单：表示在白名单的主机IP地址可以，用来存储数据。企业中：配置白名单，可以尽量防止黑客恶意访问攻击。配置白名单步骤如下：1）在NameNode节点的/opt/module/hadoop-3.1.3/etc/hadoop目录下分别创建whitelist 和blacklist文件（1）创建白名单vimwhitelist在whitelist中添加如下主机名称，假如集群正常工作的节点为102 103hadoop102hadoop103（2）创建黑名单touch..

2021-05-26 08:31:31 741 1

原创 Zookeeper写数据流程

2021-05-25 07:03:55 130

原创 Zookeeper的选举机制（面试重点）

（1）半数机制：集群中半数以上机器存活，集群可用。所以Zookeeper适合安装奇数台服务器。（2）Zookeeper虽然在配置文件中并没有指定Master和Slave。但是，Zookeeper工作时，是有一个节点为Leader，其他则为Follower，Leader是通过内部的选举机制临时产生的。（3）以一个简单的例子来说明整个选举的过程。假设有五台服务器组成的Zookeeper集群，它们的id从1-5，同时它们都是最新启动的，也就是没有历史数据，在存放数据量这一点上，都是一样的。假设这些服务

2021-05-25 06:56:45 127

原创 Zookeeper的工作机制

Zookeeper是一个开源的分布式的，为分布式应用提供协调服务的Apache项目。Zookeeper从设计模式角度来理解，是一个基于观察者模式设计的分布式服务管理框架，它负责存储和管理大家都关心的数据，然后接受观察者的注册，一旦这些数据的状态发生了变化，Zookeeper就负责通知已经在Zookeeper上注册的那些观察者做出相应的反应。...

2021-05-25 06:49:22 318

原创 Reduce Join案例实操

Map端的主要工作：为来自不同表或文件的key/value对，打标签以区别不同来源的记录。然后用连接字段作为key，其余部分和新加的标志作为value，最后进行输出。Reduce端的主要工作：在Reduce端以连接字段作为key的分组已经完成，我们只需要在每一个分组当中将那些来源于不同文件的记录（在Map阶段已经打标志）分开，最后进行合并就ok了。代码实现（1）创建商品和订单合并后的TableBean类package com.mischen.mapreduce.wordco

2021-05-22 09:42:29 223

原创 HBase与Hive的比较

2021-05-21 06:31:55 148

原创 MemStore Flush

MemStore刷写时机：1.当某个memstore的大小达到了hbase.hregion.memstore.flush.size（默认值128M），其所在region的所有memstore都会刷写。当memstore的大小达到了hbase.hregion.memstore.flush.size（默认值128M）*hbase.hregion.memstore.block.multiplier（默认值4）时，会阻止继续往该memstore写数据。2.当region server中...

2021-05-20 07:09:51 233

原创 HBase写数据流程

写流程：1）Client先访问zookeeper，获取hbase:meta表位于哪个RegionServer。2）访问对应的Region Server，获取hbase:meta表，根据读请求的namespace:table/rowkey，查询出目标数据位于哪个RegionServer中的哪个Region中。并将该table的region信息以及meta表的位置信息缓存在客户端的meta cache，方便下次访问。3）与目标RegionServer进行通讯；4）将数据顺序写入（追加）...

2021-05-20 06:59:33 861

原创 RegionServer 架构

1）StoreFile保存实际数据的物理文件，StoreFile以Hfile的形式存储在HDFS上。每个Store会有一个或多个StoreFile（HFile），数据在每个StoreFile中都是有序的。2）MemStore写缓存，由于HFile中的数据要求是有序的，所以数据是先存储在MemStore中，排好序后，等到达刷写时机才会刷写到HFile，每次刷写都会形成一个新的HFile。3）WAL由于数据要经MemStore排序后才能刷写到HFile，但把数据保存在内存中会有很高的概率..

2021-05-20 06:51:40 248 1

原创 HBase基本架构

架构角色：1）RegionServerRegionServer为 Region的管理者，其实现类为HRegionServer，主要作用如下:对于数据的操作：get, put, delete；对于Region的操作：splitRegion、compactRegion。2）MasterMaster是所有RegionServer的管理者，其实现类为HMaster，主要作用如下：对于表的操作：create, delete, alter对于RegionServer的操作：分配...

2021-05-20 06:42:05 130

原创 HBase数据模型

逻辑上，HBase的数据模型同关系型数据库很类似，数据存储在一张表中，有行有列。但从HBase的底层物理存储结构（K-V）来看，HBase更像是一个multi-dimensional map。1.2.2 HBase物理存储结构1.2.3数据模型1）Name Space命名空间，类似于关系型数据库的database概念，每个命名空间下有多个表。HBase两个自带的命名空间，分别是hbase和default，hbase中存放的是HBase内置的表，default表是用户默认使用的命名空.

2021-05-20 06:35:49 307

原创 graphics生成图片带表格

1.图片实现效果：2.直接上示例代码：package com.mischen.mapreduce.wordcount;import com.sun.image.codec.jpeg.JPEGCodec;import com.sun.image.codec.jpeg.JPEGImageEncoder;import java.awt.*;import java.awt.image.BufferedImage;import java.io.BufferedOutputStream;i

2021-05-16 22:50:41 856 1

原创 poi-tl怎样在word中添加图片并使图片居中

1.在pom.xml文件中导入poi-tl： <dependency> <groupId>com.deepoove</groupId> <artifactId>poi-tl</artifactId> <version>1.9.1</version> </dependency>2.编写测试类：.

2021-05-14 23:37:17 1661

原创 poi-tl怎样在word中添加图片（附详细java代码）

1.在pom.xml文件中导入poi-tl： <dependency> <groupId>com.deepoove</groupId> <artifactId>poi-tl</artifactId> <version>1.9.1</version> </dependency>2.编写测试类：package co

2021-05-14 23:29:56 2665

原创利用poi实现多个word之间的合并（包括图片、表格、样式都不丢失）

最近项目上经常操作word，之前一直用的freemarker这个框架，在网上搜寻了大量的资料，都推荐使用poi-tl这个工具来实现，这里我就自己写了一个demo，亲自测试了一下，这个word合并果然简单靠谱，需要注意的是：需要使用jdk1.8以上的来进行编译主要步骤：1.导入poi-tl包：<dependency> <groupId>com.deepoove</groupId> <artifact

2021-05-13 23:43:19 4146 4

原创 FastDFS和mogileFS对比

2021-05-12 23:23:10 114

原创 FastDFS和集中存储方式对比

2021-05-12 23:22:06 148

原创 FastDFS高可用集群架构图

2021-05-12 23:17:59 299

原创什么是FastDFS？

FastDFS是一个轻量级的开源分布式文件系统FastDFS主要解决了大容量的文件存储和高并发访问的问题，文件存取时实现了负载均衡FastDFS实现了软件方式的RAID，可以使用廉价的IDE硬盘进行存储支持存储服务器在线扩容支持相同内容的文件只保存一份，节约磁盘空间FastDFS只能通过Client API访问，不支持POSIX访问方式FastDFS特别适合大中型网站使用，用来存储资源文件（如：图片、文档、音频、视频等等）...

2021-05-12 23:10:51 738

原创 NameNode心跳并发配置

1）hdfs-site.xmlThe number of Namenode RPC server threads that listen to requests from clients. If dfs.namenode.servicerpc-address is not configured then Namenode RPC server threads listen to requests from all nodes.NameNode有一个工作线程池，用来处理不同DataNode的并发心..

2021-05-09 10:26:25 626

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

redis-2.6.zip

SecureCRT.exe

mysql64位安装工具

mysql-5.5.40-win32安装包

远程连接服务器工具SFTP

登陆注册界面实现

servlet作为服务器响应请求.zip

用js写的163登陆界面系统

apache-tomcat-6.0.18.exe

MyEclipse10.1破解工具及方法图解.zip

mysql-connector-java-5.1.26.jar

commons-logging-1.2-bin.zip

eclipse4.5.1.exe

eclipse-inst-win32.zip

net.sf.jadclipse压缩包

mysql中文学习手册

mysql 5.0资源下载

空空如也