- 博客(33)
- 收藏
- 关注
转载 Hbase为什么这么快
为何HBase速度很快?HBase能提供实时计算服务主要原因是由其架构和底层的数据结构决定的, 即由LSM-Tree(Log-Structured Merge-Tree) + HTable(region分区) + Cache决定——客户端可以直接定位到要查数据所在的HRegion server服务器,然后直接在服务器的一个region上查找要匹配的数据,并且这些数据部分是经过cache缓存的。...
2019-01-03 23:34:16 594
转载 Hbase之文件压缩
hbase为什么压缩文件:1.节省HDFS的存储空间,缓解存储压力2.减少网络传输的数据,减轻网络传输负载HBase配置压缩前hadoop需要支持压缩,关于hadoop的压缩可以参考:第五记·Hadoop SSH免秘钥配置以及本地native配置hbase什么时候需要压缩:HBase压缩的三个阶段:1.在数据进入HDFS之前进行压缩2.在MapRecduce的shuffle过程...
2018-12-29 15:45:04 910
原创 HBase的很强大,前提是你要会用
1.1、产生背景自 1970 年以来,关系数据库用于数据存储和维护有关问题的解决方案。大数据的出现后,好多公司实现处理大数据并从中受益,并开始选择像 Hadoop 的解决方案。Hadoop 使用分布式文件系统,用于存储大数据,并使用 MapReduce 来处理。Hadoop 擅长于存储各种格式的庞大的数据,任意的格式甚至非结构化的处理。Hadoop 的限制Hadoop 只能执行批量...
2018-12-28 23:23:39 380
转载 [技术应用] 将 Spark Streaming + Kafka direct 的 offset 存入Zookeeper并重用
问题导读:1. 使用Direct API时为什么需要见offset保存到Zookeeper中?2. 如何将offset存入到Zookeeper中?3. 如何解决Zookeeper中offset过期问题?实现将offset存入Zookeeper在 Spark Streaming 中消费 Kafka 数据的时候,有两种方式分别是 1)基于 Receiver-based 的 createS...
2018-12-28 21:55:06 433
转载 SparkStreaming整合Kafka-0.8的官方文档要点翻译
Spark Streaming + Kafka Integration Guide (Kafka broker version 0.8.2.1 or higher)Note: Kafka 0.8 support is deprecated as of Spark 2.3.0.Here we explain how to configure Spark Streaming to receive ...
2018-12-27 22:41:55 336
原创 csdn如何修改文字体及颜色
Markdown是一种可以使用普通文本编辑器编写的标记语言,通过类似HTML的标记语法,它可以使普通文本内容具有一定的格式。但是它本身是不支持修改字体、字号与颜色等功能的!CSDN-markdown编辑器是其衍生版本,扩展了Markdown的功能(如表格、脚注、内嵌HTML等等)!对,就是内嵌HTML,接下来要讲的功能就需要使用内嵌HTML的方法来实现。字体、字号与颜色<font fa...
2018-12-26 10:23:22 9409 7
转载 spark性能调优之使用Kryo序列化
在SparkConf中设置一个属性,spark.serializer,org.apache.spark.serializer.KryoSerializer类;注册你使用到的,需要通过Kryo序列化的,一些自定义类,SparkConf.registerKryoClasses()SparkConf.set(“spark.serializer”, “org.apache.spark.serializ...
2018-12-25 23:44:08 314
原创 Spark中cache和persist的区别
cache和persist都是用于将一个RDD进行缓存的,这样在之后使用的过程中就不需要重新计算了,可以大大节省程序运行时间。cache和persist的区别基于Spark 2.3.2 的源码,可以看到/** * Persist this RDD with the default storage level (`MEMORY_ONLY`). */ def cache(): t...
2018-12-25 23:39:31 629
转载 hive列转行 (collect_all()/collect_list() 不去重)、(collect_set去重)
collect_all() hive 0.12collect_list() hive 0.13**一、问题**hive如何将a b1a b2a b2c d1c d1d d2变为:a [“b1”,“b2”,“b2”]c [“d1”,“d1”]d [“d2...
2018-12-24 23:23:51 2430
转载 关于SparkStreaming的checkpoint的弊端
框架版本spark2.1.0kafka0.9.0.0当使用sparkstreaming处理流式数据的时候,它的数据源搭档大部分都是Kafka,尤其是在互联网公司颇为常见。 当他们集成的时候我们需要重点考虑就是如果程序发生故障,或者升级重启,或者集群宕机,它究竟能否做到数据不丢不重呢?也就是通常我们所说的高可靠和稳定性,通常框架里面都带有不同层次的消息保证机制,一般来说有三种就是:at ...
2018-12-24 12:40:33 248
转载 CustomDirectKafkaExample.scala
package main.scalaobject CustomDirectKafkaExample { private val conf = ConfigFactory.load() private val sparkStreamingConf = conf.getStringList("CustomDirectKafkaExample-List").asScala
2018-12-24 11:39:09 406 1
原创 HdfsToHBase
package com.hdfs.hbase;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apache...
2018-12-23 17:42:10 283
转载 Spark Streaming消费Kafka Direct方式数据零丢失实现之redis
一、概述上次写这篇文章文章的时候,Spark还是1.x,kafka还是0.8x版本,转眼间spark到了2.x,kafka也到了2.x,存储offset的方式也发生了改变,笔者根据上篇文章和网上文章,将offset存储到Redis,既保证了并发也保证了数据不丢失,经过测试,有效。二、使用场景Spark Streaming实时消费kafka数据的时候,程序停止或者Kafka节点挂掉会导致数据丢...
2018-12-23 16:54:54 519
转载 Hbase之--------将Hdfs数据加载到Hbase数据库中
package Kaoshi;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.HCol...
2018-09-18 22:01:29 858
原创 hbase数据导入hdfs中之(使用MapReduce编程统计hbase库中的mingxing表中男女数量)
数据zhangfenglun,M,20,13522334455,zfl@163.com,23521472chenfei,M,20,13684634455,cf@gmail.com,84545472liyuchen,M,20,13522334255,lyc@163.com,84765472liuwei,M,20,13528734455,lw@qq.com,84521765liuyang,M...
2018-09-18 13:51:45 972
原创 hadoop之hbase数据分页查询
package page;import java.io.IOException;import java.util.Iterator;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.Ta...
2018-09-15 20:23:21 868
原创 MapReduce 之 ---MapJoin
package com.ghgj.cn.mapjoin;import java.io.BufferedReader;import java.io.FileReader;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import java.util.HashMap;i...
2018-09-02 23:23:47 370
原创 MapReduce 之 ---自定义全局计数器,将信息输出到控制台
package jishuqi;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Null...
2018-09-02 19:33:13 877
原创 求共同好友,多job运用
package bd1805day09;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import ...
2018-09-02 19:03:30 478
原创 统计hdfs中小文件的占比
package kaoshi831;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import or...
2018-09-02 11:50:24 627
原创 MapReduce 之-- 某个用户在某个位置从某个时刻开始停留了多长时间--升级版
package kaoshi831;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import or...
2018-09-02 11:36:41 663
原创 MapReduce之--某个用户在某个位置从某个时刻开始停留了多长时间
package kaoshi831;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import java.util.ArrayList;import java.util.Collections;import java.util.List;import org.a...
2018-09-02 10:22:03 617 1
原创 统计单词在每个文件中出现的次数,并且将出现次数按照降序排列
package kaoshi3;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org....
2018-09-01 18:57:35 3115
原创 编写MapReduce :统计每个关键词,所在文件及,第几行出现了多少次
import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import java.util.HashMap;import java.util.Map;import org.apache.hadoop.conf.Configuration;import org.apache.had...
2018-09-01 18:28:52 2118
原创 读取hdfs文件上的第二个块的数据
package com.ghgj.cn.zy;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.BlockLocation;i...
2018-08-26 12:50:02 524
原创 hdfs文件,从随机地方开始读,读取任意长度
package com.ghgj.cn.zy;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import java.util.Random;import org.apache.hadoop.conf.Configuration;import org.apache.h...
2018-08-26 11:46:26 1512
原创 删除特定文件(.txt)
package com.ghgj.cn.zy;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;impo...
2018-08-26 10:03:19 352
原创 递归删除空文件、空目录
package com.ghgj.cn.zy;import java.io.FileNotFoundException;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import org.apache.hadoop.conf.Configuration;impor...
2018-08-26 09:55:44 634
原创 atomic保证内存变量的原子性
import java.util.concurrent.atomic.AtomicInteger;/** * *atomic保证原子性的操作 */ public class TestAtomic {/** * 原子性 * AtomicInteger 可以保证原子操作的integer的类型 * synchronize 也可以保证原子性 * atomic要...
2018-08-19 23:17:18 518
原创 基础排序之冒泡排序_选择排序_插入排序
冒泡排序 相邻的两个数比较排序 第一次循环先找到最大数/最小数排在第一位,后面每次循环以此类推 插入排序 将后面的某个数与前面的数比较,如果符合条件(比其大/比其小)将之取出 前面的数依次向后面移动 选择排序 第一次循环,首位与后面每个位置上的数比较,找到最大值\最小值,放在第一位 第二次循环,第二位与后面的每个每个位置的数比较,以此类推 ...
2018-08-19 17:30:58 179
转载 多线程之abc顺序打印10次
package com.ghgj.cn.thread;public class ThreadABC { static Object abc = new Object(); static Boolean thread1=true; static Boolean thread2=false; static Boolean thread3=false;...
2018-08-19 14:01:08 310
原创 作业:实现两个线程交替打印
package com.ghgj.cn.thread;public class ThreadDome{ private static Object lock = new Object();//声明一个全局变量 private static int i=0;public static void main(String[] args) { Thread thread...
2018-08-18 21:46:08 508
原创 hadoop集群启动失败之免密登录
**设置了免密码登陆但是还是需要输入密码:** 权限保证: 1、authorized-keys 的权限为 600 2、home、账户所在的目录如hadoop、.ssh这三个文件的权限都必须设置为700,缺少一个都不行哦,因为sshd文件中明确说过如果上述三个文件可以被所有者之外的对象进行写操作(可以man sshd命令查看英文说明),免密...
2018-08-18 21:41:06 2236
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人