自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

lm709409753的专栏

最怕你一生碌碌无为,还安慰自己平凡可贵!梦想要有,并为之坚持✊。

  • 博客(112)
  • 资源 (8)
  • 收藏
  • 关注

原创 hiveserver2&&beeline&&java client

hiveserver2 -》启动 bin/hiveserver2:前段运行 bin/hiveserver2 & :后台运行 bin/hive –service hiveserver2beeline(先启动hiveserver2) -》启动 bin/beeline bin/beeline -u jdbc:hive2://hadoop-seni

2017-01-19 18:58:12 1315

原创 自定义UDF

UDF自定义UDF●      继承org.apache.hadoop.hive.ql.exec.UDF类●      必须含有一个evaluate()方法,可以重载多个,但至少有一个evaluate方法。●      我写这个很简单,只要判断输入的数据不为空,就用java的正则表达式,把"替换为空。packagecom.liangman.udf;import org.ap

2017-01-19 16:42:00 456

转载 分析函数

分析函数是什么?分析函数是Oracle专门用于解决复杂报表统计需求的功能强大的函数,它可以在数据中进行分组然后计算基于组的某种统计值,并且每一组的每一行都可以返回一个统计值。分析函数和聚合函数的不同之处是什么?普通的聚合函数用group by分组,每个分组返回一个统计值,而分析函数采用partition by分组,并且每组每行都可以返回一个统计值。分析函数的形式分析函数带有一个

2017-01-19 15:46:34 5616

原创 hive几种排序

order by:全局排序 select * from emp order by sal; sort by:对于每个reduce进行排序 set mapreduce.job.reduces=3; insert overwrite local directory ‘/opt/datas/emp_sort’ row format delimited fie

2017-01-19 15:39:22 896

原创 HIVE export import

export 格式:export table to ‘hdfs_path’hive (default)> export table liangman21 to '/user/liangman/input' > ;FAILED: SemanticException Line 1:13 Invalid path ''/user/liangman/input'': Tar

2017-01-19 15:27:48 1330

原创 hive相关配置

hive的企业配置:1、配置元数据的存储-》derby数据库只能启动一个实例-》配置使用mysql进行存储元数据mysql热备-》安装配置mysql-》卸载自带的mysql-lib-》安装  sudo yum install -y  mysql-server要求:联网、yum源/etc/yum.repos.d/-》检查sudo service mysqld

2017-01-18 20:54:02 311

原创 hive的功能架构

hive可以做什么?hive本质上是Hadoop数据仓库工具。用于解决海量结构化的日志的数据统计。可以将结构化的数据文件映射成一张表,并提供SQL查询。hive可以通过一种基于SQL的数据操纵语言来简化对mapreduce的访问。通过编写SQL语句,优化后自动生成mapreduce任务,并执行任务。适合离线数据处理,因为hive的执行延迟比较高。hive是构架在hadoop之上的数

2017-01-18 20:24:39 505

原创 mapreduce pv

分析网站基本指标PV网站基本指标1.     (Page View),网站浏览量,指页面的浏览量或点击次数,用户每次刷新即被计算一次。如果用户刷新了页面100次,那么,流量统计工具就会显示100个“PV”量。这就是“PV”在流量统计中具体的一个定义了;2.     (Unique Vistor),独立访客数,指1天内访问某站点的人数,以cookie或者用户唯一ID为依据。1天内同一访客

2017-01-18 16:30:31 407

原创 Resourcemanager HA

1.官网resourcemanager HA IntroductionThis guide provides an overview of High Availability of YARN's ResourceManager, and details how to configure and use this feature. The ResourceManager (RM)

2017-01-18 15:49:36 2117

原创 Namenode HA

由于单个namenode节点挂掉之后,整个集群就不会提供服务,为此,提出了HA,增加另一个namenode节点,做热备。(配置HA架构之前,关闭整个集群) 1、JournalNode-》轻量级-》存储日志文件的 2、两个namenode管理的是同一个元数据 3、首先将core-site.xml 4、将hdfs-site.xml中的SNN删除 5、配置namese

2017-01-18 15:36:28 302

转载 zookeeper的一些理解

1.为了解决分布式事务性一致的问题2.文件系统也是一个树形的文件系统,但比Linux系统简单,不区分文件和文件夹,所有的文件统一称为znode3.znode的作用:存放数据,但上限是1M ;存放ACL(access control list)访问控制列表,每个znode被创建的时候,都会带有一个ACL,身份验证方式有三种:digest(用户名密码验证),host(主机名验证),ip(ip验证)

2017-01-17 19:49:15 1902

原创 spark一些优化

选择一个对的API资源参数调优资源:内存&&CPU&&GC bin/spark-submit --help 运行这个,有很多配置参数,就可以调优spark-submit参数调优 dirver要接受返回值,如果返回的RDD很大,就需要DIRVER需要大的内存;driver很耗内存的,比executor的内存要大,要设大一点。 spark-submit脚本中的资源相关参数 ===> 资源参数

2017-01-14 20:41:40 428 1

原创 spark的standalone的HA配置

High Availability By default, standalone scheduling clusters are resilient to Worker failures (insofar as Spark itself is resilient to losing work by moving it to other workers). However, the schedule

2017-01-14 15:18:39 400

原创 spark本地模式和Standalone配置

local模式非常适合作业的开发调试,配置也很简单,把编译好的文件解压,然后配置即可使用。使用自己编译产生的tgz压缩包 步骤: 前提:安装Scala(2.10.4)和JDK(1.7.x+) - 解压 ln -s spark-1.6.0-bin-2.5.0/ spark - 修改相关参数 到/spark/conf目录下修改文件 vim spark-env.sh

2017-01-13 19:36:59 3895

原创 一个Hadoop错误解决

这个问题我在网上度娘了很多,都是让去重新格式化namenode,但是这种做法太狠了,,,,,很多东西,就会没了,最后还是没忍心去做。 然后我到Hadoop安装的目录下去看看,在存放的tmp有很多未执行的jar,删除之后,重新启动,就可以使用了。 还好没放弃。哈哈,,,,我是执行bin/hdfs dfs -put wc.input /sparktest 上传文件的时候出现错误的;错误如下:17/

2017-01-13 11:09:28 390

原创 Scala包

package com { package horstmann { object A { def hi = println("I'm A") } package impatient { object B extends App { def hi = A.hi hi } } }}这个可以执

2017-01-09 15:41:17 254

原创 spark一些总结

sparkSpark 对待 转化操作和行动操作的方式很不一样,因此理解你正在进行的操作的类型是很重要的。如 果对于一个特定的函数是属于转化操作还是行动操作感到困惑,你可以看看它的返回值类 型:转化操作返回的是 RDD,而行动操作返回的是其他的数据类型。转化出来的 RDD 是惰性 求值的,只有在行动操作中用到这些 RDD 时才会被计算RDD 还有一个 collect() 函数,可以用来获取整 个

2017-01-08 19:35:59 334

原创 学习spark的网站

http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html

2017-01-08 17:37:54 54227

原创 spark环境编译

spark环境的搭建和联系spark包括SparkCore: 核心部分SparkSQL: Spark中交互式处理模块SparkStreaming: Spark中流式数据处理的模块SparkMLib:Spark机器学习相关模块 => MahoutSparkGraphX: Spark中图形计算的模块编译spark配置文件修改 make-distribution.sh文件(:130,跳转到相应的

2017-01-07 19:48:25 663

转载 Hadoop集群端口(2.x)

Hadoop集群的各部分一般都会使用到多个端口,有些是daemon之间进行交互之用,有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如此,以便查询。这里包含我们使用到的组件:HDFS, YARN, HBase, Hive, ZooKeeper:组件节点默认端口配置用途说明H

2017-01-07 17:08:04 564

原创 二进制1的个数

说明:题目如标题package edu.liangman.offer;/** * Created by lm on 2017/1/4. */public class Num0fOne { public static void method1(int number){ int flag = 1; int count = 0; while(f

2017-01-04 16:27:55 247

原创 阿里云maven仓库

maven仓库http://maven.aliyun.com/nexus/#view-repositories;public~browsestorage在maven的settings.xml 文件里配置mirrors的子节点,添加如下mirror<mirror> <id>nexus-aliyun</id> <mirrorOf>*</mirrorOf> <name>Nexus

2017-01-03 20:57:25 532

原创 旋转数组中的最小值

问题如果有一个序列,后一个元素大于等于前一个算数,然后旋转数组的元素,把前面的元素放到序列的后面; 例如原始数据为: 1,2,3,4,5,6 其中的一个选装为: 3,4,5,6,1,2 然后求旋转后的数组中的最小值 思路:其实最简单的就是遍历一遍数组,冒泡一下,其时间复杂度为O(n);有没有什么可以改进一下那,要充分利用已知条件,旋转后的数组可以化为两个有序的子数组,对于有序的数组可以采

2017-01-03 14:54:48 269

原创 重置二叉树

问题描述:根据二叉树的前序和后序遍历的结果,构建二叉树;代码实现package edu.liangman.offer;/** * Created by lm on 2017/1/3. */public class RebuldBinTeee { public static TreeNode bulid(int[] pre,int preStart,int preEnd,int[] in,

2017-01-03 10:57:00 325

转载 自定义InputFormat

觉得这几篇文章写的不错,受益很多,收集一下;都是关于自定义inputformathttp://blog.csdn.net/xiaomin1991222/article/details/50981362http://irwenqiang.iteye.com/blog/1448164

2017-01-02 20:27:08 357

原创 KMP

package edu.liangman.offer;/** * Created by lm on 2017/1/1. */public class KMP {public int[] getNext(String b){ int len=b.length(); int j=0; int next[]=new int[len+1];//next表示长度为i的字符串前缀

2017-01-01 15:41:51 278

原创 归并排序

1、复杂度分析 总的时间复杂度为O(nlogn),而且这是归并排序算法中最好、最坏、平均的时间性能。 由于归并排序在归并过程中需要与原始序列同样数量的存储空间存放归并结果以及递归时深度为这里写图片描述的栈空间,因此空间复杂度为O(n+logn). 另外,对代码进行仔细研究,发现merge函数中有if (a[i] < a[j]) 的语句,说明它需要两两比较,不存在跳跃,因此归并排序是一种稳定

2016-12-31 19:31:32 319

原创 替换空格为%20

1.题目 2.理解 可以从前往后依次遍历其内容,如果为’ ‘字符,做替换,但是每次后面的数据都要移动,使其时间复杂度变大,从前面不行,我们就可以从后面,改变移动的次数; 3.代码package edu.liangman.offer;/** * Created by lm on 2016/12/31. */public class ReplaceSpace { //定义一个替

2016-12-31 15:32:32 299

原创 storm trident一些总结

可以在创建topology的时候设置超时时间 setMessagetimeout默认时间是三十秒链式调用 each 用于指定对stream中的每一个tuple进行指定的操作,需要指定tuple那些tuple操作; 对trident的操作要考虑是否跨网络传输,是否跨分区 filter过滤操作,只是判断某个tuple是否保留,无需夸网络和分区 each 指定传到操作中只是tuple的 子集(

2016-12-30 14:53:23 1149

原创 storm 实时日志分析导图

2016-12-28 21:24:08 583

原创 Scala一些总结

对于定义递归函数,必须指定函数的返回值守卫和推导式可以转换为a.filter(…).map(….) -用toMap方法可以将对偶集合转换成映射Map keys.zip(values).toMap建议当使用取值的时候,如果函数没有参数,可以省略括号(),但是如果是设置值,应该加上(),这是一种好的习惯在Scala中,方法可以访问该类所有对象的私有字段对象私有字段 private [this

2016-12-27 14:59:41 213

原创 Scala Map

1、map代表的是<key,value>的映射 2、创建不可变的map,默认情况下都是不可变的,一般不常用 val stu = Map("jack" -> 20 , "tom" -> 21, "peter" -> 22) 3、创建可变的map val stu = scala.collection.mutable.Map("jack" -> 20 , "tom" ->

2016-12-26 15:09:35 2465

原创 Scala数组

在Scala中,数组是一种特殊的collection。一方面,Scala数组与Java数组是一一对应的。即Scala数组Array[Int]可看作Java的Int[],Array[Double]可看作Java的double[],以及Array[String]可看作Java的String[]。但Scala数组比Java数组提供了更多内容。首先,Scala数组是一种泛型。即可以定义一个Array[T],

2016-12-26 14:55:30 1120

原创 Scala for循环

三种表达式Range 是左闭右开,这个可以有步长until是左闭右开to 是左右都闭合的演示to until Range for循环♻️var a = 0; val numList = List(1,2,3,4,5,6,7,8,9,10); // for 循环 for( a <- numList if a != 3; if a < 8

2016-12-26 11:37:34 1347

原创 Scala控制语句

控制语句if…else,while,do…while,Breaksif…else…if语句 if表达式本身是有值的 if(age > 18) 1 else 0 以这个例子为列,整个表达式的值就是1 最后一个语句就是表达式的返回值 这条语句没有返回值,因为isadult = 1仅仅只是赋值 if(age > 18) isadult = 1 else isadult = 0 if语句的类

2016-12-26 09:56:06 367

原创 Flume实时抽取监控目录数据

什么是flumeFlume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。它是一个基于流数据的简单而灵活的架构。具有健壮的可靠性,容错性及故障转移和恢复机制。flume原理简介(博客上看到的)这是一个关于池子的故事。有一个池子,它一头进水,另一头出水,进水口可以配置各种管子,出水口也可以配置各种管子,可以有多个进水口、多个出水口。水术语称为Event,进水口术语称为Source、出

2016-12-25 19:31:24 7134

原创 Scala 基础

Scala官网:http://www.scala-lang.org/当练习ScalaAPI的时候,可以使用命令行进行操作,但你首先要配置好环境,这个很好配置。Scala安装与环境变量设置 http://www.scala-lang.org/download/基础语法整数相加scala> 1+1res0: Int = 2变量乘法scala> res0 * 5res1: Int = 1

2016-12-25 19:13:51 255

原创 企业大数据cloudera manager安装使用

我安装的时候,使用“一起写office”编写的,发到博客上会有一些问题,在这里发出我的共享地址,https://yiqixie.com/d/home/fcADgIxvDWA2fVPI5Jo8GPOvK

2016-12-25 17:26:18 336

原创 stom实时单词统计

1.微批处理可以根据数据的条数或者间隔时间来定。实时处理有两种方式。一是持续流处理,二是微批处理。2数据纪录处理情况一是至少一次,  存在重复处理二是有且仅有一次 严格三是至多一次    存在漏出里3.配置stom.yaml(python格式,注意文件的配置)# Licensed to the Apache Software Foundation (ASF)

2016-12-25 17:12:00 398

转载 java线程安全问题之静态变量、实例变量、局部变量

Java多线程编程中,存在很多线程安全问题,至于什么是线程安全呢,给出一个通俗易懂的概念还是蛮难的,如同《java并发编程实践》中所说:写道给线程安全下定义比较困难。存在很多种定义,如:“一个类在可以被多个线程安全调用时就是线程安全的”。  此处不赘述了,首先给出静态变量、实例变量、局部变量在多线程环境下的线程安全问题结论,然后用示例验证,请大家擦亮眼睛,有错必究,否则

2016-12-22 10:37:50 265

scala-2.11.8.tgz

https://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz 官网下载不了,分享下。

2018-05-11

HTTP权威指南(高清带目录)

HTTP权威指南(高清带目录) 该文档被我压缩了 本书是HTTP协议及相关Web技术方面的权威著作,主要内容包括: HTTP方法、首部以及状态码 优化代理和缓存的方法 设计Web机器人和爬虫的策略 Cookies、认证以及安全HTTP 国际化及内容协商 重定向及负载平衡策略

2018-04-11

Redis开发与运维 pdf

本书全面讲解Redis基本功能及其应用,并结合线上开发与运维监控中的实际使用案例,深入分析并总结了实际开发运维中遇到的“陷阱”,以及背后的原因, 包含大规模集群开发与管理的场景、应用案例与开发技巧,为高效开发运维提供了大量实际经验和建议。本书不要求读者有任何Redis使用经验,对入门与进阶DevOps的开发者提供有价值的帮助。主要内容包括:Redis的安装配置、API、各种高效功能、客户端、持久化、复制、高可用、内存、哨兵、集群、缓存设计等,Redis高可用集群解决方案,Redis设计和使用中的问题,最后提供了一个开源工具:Redis监控运维云平台CacheCloud。

2018-03-29

开源大数据分析引擎Impala实战

开源大数据分析引擎Impala实战.pdf 该资源来自网络,仅用于分享知识,学习和交流,请勿用于商业用途。请支持正版! (请支持原作者)

2017-11-27

快学Scala 中文版带目录

快学Scala 中文版 带目录 第一版 清晰 蛮不错的书籍,适合大家学习!

2017-10-18

《像计算机科学家一样思考Python》

《像计算机科学家一样思考Python》按照培养读者像计算机科学家一样的思维方式的思路来教授Python语言编程。全书贯穿的主体是如何思考、设计、开发的方法,而具体的编程语言,只是提供一个具体场景方便介绍的媒介。《像计算机科学家一样思考Python》并不是一本介绍语言的书,而是一本介绍编程思想的书。和其他编程设计语言书籍不同,它不拘泥于语言细节,而是尝试从初学者的角度出发,用生动的示例和丰富的练习来引导读者渐入佳境。

2017-09-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除