自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

宝罗Paul 的博客

认真工作,愉快生活 ^_^

  • 博客(8)
  • 资源 (2)
  • 收藏
  • 关注

原创 Hbase架构概述

HBase实现了BigTable存储架构,是分布式的、可伸缩的数据库,适合存储非关系型的数据。Hbase的数据存储在HDFS,hbase和Hadoop之间的无缝集成保障了数据的可靠性(多个副本)如果数据存储需要更多的空间,只需要在hbase集群中加入新的HRegionServer节点即可,HBase会自动水平切分扩展,所以能承载“十亿行、百万列”的数据规模。下面对HBase架构中的各个角色

2017-05-06 19:09:20 893 1

原创 Hbase中的rowkey以及热点问题

一、Hbase中的每条记录的结构Hbase的表组成:一个表可以理解成是行的集合,行(记录)是列族的集合,列族是列的集合。(1) 列族column family:它是column的集合,在创建表的时候就指定,不能频繁修改。值得注意的是,列族的数量越少越好,因为过多的列族相互之间会影响,生产环境中的列族一般是一个到两个。数据的持久化文件HFile中是按照Key-Value存储的,同一个列族...

2017-05-06 19:07:49 24836 6

原创 Python中的for循环、while循环示例

print "\nFFFFFFFFFFfor循环 FFFFFFFFFF"# for-loop打印九九乘法表,金字塔形状rows = range(1,10)cols = range(1,10)row, col = 1,1for row inrows: for col incols: if col <= row: print "%s ...

2017-05-05 17:29:09 3997

原创 Python中的比较和判断代码实例

print"\n~~~~~~~如何判断python对象的内容和对象的内存地址~~~~~~~~~"t1 = (1,2,3,4)t2 = (1,2,3,4)print id(t1);printid(t2)print t1 == t2 # ==判断内容是否相同print t1 is t2 #使用is判断是否同一个对象(内存地址)print "=======比较大小======="# Ret...

2017-05-05 17:28:20 950

原创 Python列表推导式、字典推导式、生成器示例

print "\n+++++++列表推导式++++++++"auto_list = [x for xin"Good evening!"] #列表推导式1print "列表推导式1:\t",auto_listrows = xrange(1, 6)cols = xrange(10,13)# 生成一个二维数组:在列表中嵌套列表# 总共有len(rows)行,每行中的列元素是[col ...

2017-05-05 16:46:30 2424 2

原创 python字符串、元祖、列表(有代码有注释)

通过直接运行代码看结果,体会一下python基本数据类型的用法。请注意看代码注释。======python代码开始======print '\n======="字符串"操作======='# 对字符串乘以N, 表示此字符串重复N次print "==" *10s1 = "hello \r" # \r是python里的回车符s2 = ...

2017-05-04 23:04:01 892

原创 python通过字典实现java的switch-case模式匹配(代码有注释)

模式匹配python版: 不同于java的swith-case 和 scala的match-case, Python里面没有这类关键字. 所以只能通过字典实现: 先定义一个字典以确定映射关系,再通过get('key')方法获取到字典里面对应的值, 值可以是之前定义过的函数或者其他数据类型),最后调用函数并传参,由函数的代码完成运算============pyth...

2017-05-04 21:46:31 892

原创 分布式sparkSQL引擎应用:从远程通过thriftServer连接spark集群处理hive中的数据

实现原理:客户端(java程序)与thriftServer连接,thriftServer再代理客户端转换成spark的操作流程,再加载hive的数据到spark的worker节点,并运行Map-Reduce作业。这里只是个小案例,和大家一起来探讨一下原理。步骤:分发三个配置文件hdfs-site.xml、core-site.xml、hive-site.xml到所有worker节

2017-05-02 14:03:10 3547 1

爬虫技能树

爬虫技能书,介绍成为爬虫大师必备的技能:前端、网络、存储等待

2018-09-19

[案例]从冷备份的hdfs数据中恢复到原来的hbase表

介绍了从之前冷备份到hdfs的Hbase数据中恢复数据到hbase表的操作流程,使用的hbase-1.1,hadoop-2.7

2018-04-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除