- 博客(11)
- 收藏
- 关注
原创 hive中的排序
1.order by对输入做全局排序,因此只有一个reduce。只有一个reduce会导致当输入规模较大的时候,需要较长的计算时间。2.sort by 不是全局排序,其在数据进入reduce之前完成排序。3.distribute by按照指定的字段对数据进行划分输出到不同的reduce中去,select后面涉及的列不必使用聚合操作。4.cluster by除了distribute by以外还有so...
2018-04-19 20:50:24 372
原创 Hive数据倾斜
一、数据倾斜产生原因1.操作join一个表很小,但是key集中;分发到某一个或者几个Reduce上的数据远高于平均值。大表与大表,但是字段的空值很多;这些空值都由一个reduce进行操作,速度非常的慢。group by数据维度非常的小,某值的数据非常多;处理某值的reduce非常耗时。count distinct某特殊值多;处理此特殊值的reduce非常的耗时。2.原因(1)key值分布不均匀。(...
2018-04-19 20:31:16 706
原创 Mysql排序函数
一、row_numberrow_number会为查询出来的每条记录生成一个序号,依次排序并且不会重复,row_number必须要使用over句子选择对某一列进行排序才会生成序号,row_number用法实例:select ROW_NUMBER() OVER(order by [SubTime] desc) as row_num,* from [Order]row_num就是row_number函数...
2018-04-19 17:16:40 12104 6
原创 Hbase行级事务模型
Hbase事务原子性保证Hbase的数据首先会写入WAL,再写入Memstore。写入Memstore异常的话很容易实现回滚,因子只要保证WAL的原子性即可,每个事务只会产生一个WAL单元,这样就可以保证其原子性。Hbase事务一致性保证Hbase事务隔离性保证写写并发控制实现写写并发控制,只需要在写入或者更新之前先获取行锁,如果获取不到,就说明有其它的线程已经获得了该锁,就需要不断的重试等待或者...
2018-04-19 15:11:05 2137
原创 Hbase的WAL机制
简介WAL(Write-Ahead-Log)预写日志是Hbase的RegionServer在处理数据插入和删除的过程中用来记录操作内容的一种日志。在每次Put、Delete等一条记录时,首先将其数据写入到RegionServer对应的HLog文件中去。客户端向RegionServer端提交数据的时候,会先写入WAL日志,只有当WAL日志写入成功的时候,客户端才会被告诉提交数据成功。如果写WAL失败...
2018-04-19 13:53:52 5883
原创 Hbase和传统数据库之间的区别
Hbase和传统数据库的区别1.数据类型:Hbase只有简单的数据类型,只保留字符串;传统数据库有丰富的数据类型。2.数据操作:Hbase只有简单的插入、查询、删除、清空等操作,表和表之间是分离的,没有复杂的表和表之间的关系;传统数据库通常有各式各样的函数和连接操作。3.存储模式:Hbase是基于列存储的,每个列族都由几个文件保存,不同列族的文件是分离的,这样的好处是数据即是索引,访问查询涉及的列...
2018-04-19 13:12:41 18785
原创 java从控制台获得输入
java从控制获得输入采用的是Scanner方法,代码如下:import java.util.Scanner;Scanner scanner = new Scanner(System.in); int num = scanner.nextInt();
2018-03-01 22:27:53 13782 1
原创 python-read()、readline()以及readlines()之间的区别
python读取文件常见的三种的方法是read()、read()、readline()以及readlines(),三者之间的区别如下。1. a.txt文件的内容取下helloworld2. read([size])函数size参数表示从文章开始读取的size个字节数,若没有则读取文件的全部内容file=open('a.txt','r')content=file.read()print con...
2018-02-11 21:18:27 2191
原创 python-实现重要文件的备份
本片博文是用python实现的重要文件的备份。思路:给出要备份的文件的目录地址创建将要备份文件的目录,在这之前需要判断目录是否存在选择性的给要备份的文件添加注释要zip命令将要备份的文件压缩使用os.system(zip_command)执行zip命令代码:import osimport time# 要备份的文件地址source=['/Users/joananjin/Desktop/pyth...
2018-02-11 17:31:09 466
原创 python-读取目录中文件以及解决未知编码的中文乱码
本篇博文主要针对的是读取一个目录中所有的文件问题。同时,每个文件中的编码是未知的,并且是不同的。思路:先获得文件所在的目录地址以及目录下所有文件的名称对于编码问题,先自定义一个常见编码集合一个个的去遍历文件名以及去遍历编码集合代码:# 相关模块 import codecs import os # 文件路径 path='/Users/joananjin/Desktop/answer/...
2018-02-10 20:50:03 1168
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人