自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 资源 (11)
  • 收藏
  • 关注

转载 cut与awk

某个目录下有两个文件a.txt和b.txt.文件格式为(ip username),例如:a.txt210.121.123.12 zhangsan34.23.56.78 lisi11.56.56.72 wangerb.txt58.23.53.132 liuqi34.23.56.78 libaa.txt,b.txt 中至少 100 万行,用 linux命令行

2017-02-28 10:33:38 799

原创 yarn中资源调度fair schedule详解

Fair Scheduler将整个Yarn的可用资源划分成多个资源池,每个资源池中可以配置最小和最大的可用资源(内存和CPU)、最大可同时运行Application数量、权重、以及可以提交和管理Application的用户等。现在一般的大数据平台也都提供了可配置的界面:以TDH为例:default 也就是有一个默认的队列,首先在yarn-site

2017-02-27 17:26:11 14471

转载 MapReduce实现join操作

前阵子把MapReduce实现join操作的算法设想清楚了,但一直没有在代码层面落地。今天终于费了些功夫把整个流程走了一遭,期间经历了诸多麻烦并最终得以将其一一搞定,再次深切体会到,什么叫从计算模型到算法实现还有很多路要走。数据准备首先是准备好数据。这个倒已经是一个熟练的过程,所要做的是把示例数据准备好,记住路径和字段分隔符。准备好下面两张表:(1)m_ys_lab

2017-02-27 15:56:57 560

转载 HIVE 动态分区与静态分区

HIVE分区,实际上是通过一个路径来标识的,而不是在物理数据中。比如每天的数据,可能分区是pt=20121023这样,那么路径中它就会变成:/hdfs/path/pt=20121023/data_files。通过路径来标识的好处是,如果我们需要取特定分区的数据,只需要把这个路径下的数据取出来就可以了,不用扫描全部的数据。HIVE默认是静态分区。但是有时候可能需要动态创建不同的分区,比如

2017-02-27 10:57:15 394

转载 yarn资源隔离

大数据处理离不开hadoop集群的部署和管理,对于本来硬件资源就不多的创业团队来说,做好资源的共享和隔离是很有必要的,毕竟不像BAT那么豪,那么怎么样能把有限的节点同时分享给多组用户使用而且互不影响呢,我们来研究一下yarn多队列做资源隔离请尊重原创,转载请注明来源网站www.shareditor.com以及原始链接地址CapacityScheduler使用过第一代

2017-02-24 13:56:55 1970

转载 shell语法回顾

一. Linux基本命令1.1.  cp命令该命令的功能是将给出的文件或目录拷贝到另一文件或目录中,功能十分强大。语法: cp [选项] 源文件或目录 目标文件或目录 1.2. mv命令用户可以使用mv命令来为文件或目录改名或将文件由一个目录移入另一个目录中。语法:mv [选项] 源文件或目录 目标文件或目录 1.3.

2017-02-24 10:25:08 474

原创 linux高级命令

1:iptables 基本命令使用举例  http://blog.chinaunix.net/uid-9950859-id-98279.html      一、链的基本操作1、清除所有的规则。1)清除预设表filter中所有规则链中的规则。# iptables -F2)清除预设表filter中使用者自定链中的规则。#iptables -X#iptables -Z

2017-02-23 15:40:06 5358

转载 tar命令的详细解释

tar命令[root@linux ~]# tar [-cxtzjvfpPN] 文件与目录 ....参数:-c :建立一个压缩文件的参数指令(create 的意思);-x :解开一个压缩文件的参数指令!-t :查看 tarfile 里面的文件!特别注意,在参数的下达中, c/x/t 仅能存在一个!不可同时存在!因为不可能同时压缩与解压缩。-z :是否同

2017-02-23 15:04:20 901

转载 mapjoin解析

今天遇到一个hive的问题,如下hive sql:select f.a,f.b from A t join B f  on ( f.a=t.a and f.ftime=20110802) 该语句中B表有30亿行记录,A表只有100行记录,而且B表中数据倾斜特别严重,有一个key上有15亿行记录,在运行过程中特别的慢,而且在reduece的过程中遇有内存不够而报错。

2017-02-23 10:33:43 8967

原创 如何配置hive session过期时间

hive.server2.session.check.interval  60000  hive.server2.idle.session.timeout  3600000在hive-site.xml添加上这两个参数试试一定要在页面添加参数,然后配置服务,然后重启启动inceptorserver观察一段时间试试参数配置原因:session时间到了,连接断开,零时

2017-02-20 18:17:49 9472

转载 spark学习

转自:http://hbasefly.com/2017/01/02/how-to-study/之所以忽然提笔,是因为这段时间正好在业余时间系统地学习Spark,整个学习思路让我想起了大学期间学习《模拟电子电路》这门课的一些方法,个人觉得可以作为一个学习模板来和大家一起交流分享(本文只谈如何系统高效地学习一项技能或者一门课程,抱有突击学习目的的请绕道)。无论是学习Spark技术还是学习《模拟电子

2017-02-20 17:11:56 479

转载 Hbase超时机制

上篇博文结合一起线上问题介绍了HBase客户端基于退避算法的重试机制,并分析得出在某些场景下如果重试策略设置不当会导致长时间的业务阻塞。除了重试机制外,业务童鞋最关心的就是超时机制了。客户端超时设置对整个系统的稳定性以及敏感性至关重要,一旦没有超时设置或超时时间设置过长,服务器端的长时间卡顿必然会引起客户端阻塞等待,进而影响上层应用。好在HBase提供了多个客户端参数设置超时,主要包括 hbase

2017-02-20 17:03:53 2344 1

转载 Scala 学习

前言scala是以实现scaleable language为初衷设计出来的一门语言。官方中,称它是object-oriented language和functional language的混合式语言。并且,scala可以和java程序无缝拼接,因为scala文件编译后也是成为.class文件,并且在JVM上运行。不过,我更关心的是它的scaleable(扩展性)。一门语言到底怎样才算有扩展

2017-02-19 22:28:08 392

转载 Java集合框架

一、Collection接口Collection是最基本的集合接口,一个Collection代表一组Object,即Collection的元素(Elements)。一些 Collection允许相同的元素而另一些不行。一些能排序而另一些不行。JavaSDK不提供直接继承自Collection的类,JavaSDK提供的类都是继承自Collection的"子接口"如List和Set。

2017-02-17 17:21:42 273

原创 HBase Filter使用介绍

Filter:所有的过滤器都在服务端生效,以保证被过滤掉的数据不会被传送到客户端        注意:        基于字符串的比较器,如RegexStringComparator和SubstringComparator,比基于字节的比较器更慢,更消耗资源。因为每次比较时它们都需要将给定的值转化为String.截取字符串子串和正则式的处理也需要花费额外的时间。

2017-02-16 11:23:15 2272

原创 ConcurrentHashMap详解

并发编程实践中,ConcurrentHashMap是一个经常被使用的数据结构,相比于Hashtable以及Collections.synchronizedMap(),ConcurrentHashMap在线程安全的基础上提供了更好的写并发能力,但同时降低了对读一致性的要求(这点好像CAP理论啊 O(∩_∩)O)。ConcurrentHashMap的设计与实现非常精巧,大量的利用了volatile

2017-02-16 10:40:30 2263

转载 Hbase的存储 Rowkey设计

Hbase在生态系统中的位置Hbase存储的逻辑视图Hbase的存储格式Hbase写数据流程Hbase快速响应数据 Hbase在生态系统中的位置  HBase位于结构化存储层,Hadoop HDFS为HBase提供了高可靠性的底层存储支持,Hadoop MapReduce为HBase提供了高性能的计算能力,Zookeeper为HBase提供了

2017-02-09 15:25:49 4250

转载 kudu vs parquet, impala vs spark Benchmark

测试环境 节点:               2 台主节点,6台计算节点机器配置:               16个物理核               128G内存               12*3T磁盘操作系统:               redhat 7.2版本:               CDH

2017-02-07 16:31:14 2374

转载 sql复杂查询语句总结

本人总结了数据库查询中一些比较复杂的查询,如链表查询,多重子查询,连表查询+子查询等,由于技术有限,并没有太多考虑sql语句的优化,如有不足之处,敬请谅解。先来看看表结构:[sql] view plain copy print?create table student(  sno varchar2(10) primary key,  sname varc

2017-02-07 13:39:36 23676 8

转载 HBase 常用Shell命令

两个月前使用过hbase,现在最基本的命令都淡忘了,留一个备查~进入hbase shell console$HBASE_HOME/bin/hbase shell如果有kerberos认证,需要事先使用相应的keytab进行一下认证(使用kinit命令),认证成功之后再使用hbase shell进入可以使用whoami命令可查看当前用户hb

2017-02-06 18:07:19 372

转载 HBase数据模型特性及表设计思路

问题导读:1、如何理解HBase分布式nosql数据库?2、HBase数据模型如何理解?3、HBase的表设计中需要注意哪些问题?4、如何设计几种表结构?5、HBase关键特性有哪些?最近在学习HBase的使用,并仔细阅读了一篇官方推荐的博客,在这里就以一边翻译一边总结的方式和大家一起梳理一下HBase的数据模型和基本的表设计思路。HBase是一个开源可

2017-02-06 17:57:46 3799

转载 hive 永久udf函数

开发环境:cdh5.4.8,hive1.1最近需要开发一些永久的函数供业务使用,在hive的早期版本中,只能添加临时函数或者修改一些源代码来添加永久函数,后面找到了下面的文档来创建永久函数Permanent FunctionsIn Hive 0.13 or later, functions can be registered to the metastore, so they

2017-02-06 11:03:55 4144 1

转载 Hive配置文件中配置项的含义详解(收藏版)

这里面列出了hive几乎所有的配置项,下面问题只是说出了几种配置项目的作用。更多内容,可以查看内容问题导读:1.hive输出格式的配置项是哪个?2.hive被各种语言调用如何配置?3.hive提交作业是在hive中还是hadoop中?4.一个查询的最后一个map/reduce任务输出是否被压缩的标志,通过哪个配置项?5.当用户自定义了UDF或者SerDe,这些插件的jar都

2017-02-06 10:05:57 2185

机器学习书籍大全

书籍包括xgboost_with_python.pdf,Deep Time Series Forecasting with Python.pdf,docdownloader.com_long-short-term-memory-networks-with-python.pdf,Basics for Linear Algebra for Machine Learning Discover the Mathematical Language of Data in Python.pdf,Machine Learning Algorithms.pdf

2018-08-22

PHP和MySQL.Web开发(原书第4版)高清版

PHP和MySQL.Web开发(原书第4版)高清版

2016-08-14

java 微信公众号开发案例

微信公众号开发案例,自己摸索下就能运行了

2016-08-14

微信公众平台应用开发实战

微信公众平台应用开发实战源代码

2016-08-14

R数据可视化手册代码

本书的全部代码,没有错误

2016-04-27

R数据可视化手册

R数据可视化手册

2016-04-27

数据挖掘与R语言代码

数据挖掘与R语言代码,分享快乐,这是我在大学里下载的

2016-04-24

ggplot2数据分析与图形艺术源代码

ggplot2数据分析与图形艺术源代码,里面有一些我学习的笔记

2016-04-24

spark学习总结

我是何成俭,很高兴认识你

2016-04-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除