- 博客(112)
- 资源 (8)
- 收藏
- 关注
原创 hiveserver2&&beeline&&java client
hiveserver2 -》启动 bin/hiveserver2:前段运行 bin/hiveserver2 & :后台运行 bin/hive –service hiveserver2beeline(先启动hiveserver2) -》启动 bin/beeline bin/beeline -u jdbc:hive2://hadoop-seni
2017-01-19 18:58:12
1315
原创 自定义UDF
UDF自定义UDF● 继承org.apache.hadoop.hive.ql.exec.UDF类● 必须含有一个evaluate()方法,可以重载多个,但至少有一个evaluate方法。● 我写这个很简单,只要判断输入的数据不为空,就用java的正则表达式,把"替换为空。packagecom.liangman.udf;import org.ap
2017-01-19 16:42:00
456
转载 分析函数
分析函数是什么?分析函数是Oracle专门用于解决复杂报表统计需求的功能强大的函数,它可以在数据中进行分组然后计算基于组的某种统计值,并且每一组的每一行都可以返回一个统计值。分析函数和聚合函数的不同之处是什么?普通的聚合函数用group by分组,每个分组返回一个统计值,而分析函数采用partition by分组,并且每组每行都可以返回一个统计值。分析函数的形式分析函数带有一个
2017-01-19 15:46:34
5616
原创 hive几种排序
order by:全局排序 select * from emp order by sal; sort by:对于每个reduce进行排序 set mapreduce.job.reduces=3; insert overwrite local directory ‘/opt/datas/emp_sort’ row format delimited fie
2017-01-19 15:39:22
896
原创 HIVE export import
export 格式:export table to ‘hdfs_path’hive (default)> export table liangman21 to '/user/liangman/input' > ;FAILED: SemanticException Line 1:13 Invalid path ''/user/liangman/input'': Tar
2017-01-19 15:27:48
1330
原创 hive相关配置
hive的企业配置:1、配置元数据的存储-》derby数据库只能启动一个实例-》配置使用mysql进行存储元数据mysql热备-》安装配置mysql-》卸载自带的mysql-lib-》安装 sudo yum install -y mysql-server要求:联网、yum源/etc/yum.repos.d/-》检查sudo service mysqld
2017-01-18 20:54:02
311
原创 hive的功能架构
hive可以做什么?hive本质上是Hadoop数据仓库工具。用于解决海量结构化的日志的数据统计。可以将结构化的数据文件映射成一张表,并提供SQL查询。hive可以通过一种基于SQL的数据操纵语言来简化对mapreduce的访问。通过编写SQL语句,优化后自动生成mapreduce任务,并执行任务。适合离线数据处理,因为hive的执行延迟比较高。hive是构架在hadoop之上的数
2017-01-18 20:24:39
505
原创 mapreduce pv
分析网站基本指标PV网站基本指标1. (Page View),网站浏览量,指页面的浏览量或点击次数,用户每次刷新即被计算一次。如果用户刷新了页面100次,那么,流量统计工具就会显示100个“PV”量。这就是“PV”在流量统计中具体的一个定义了;2. (Unique Vistor),独立访客数,指1天内访问某站点的人数,以cookie或者用户唯一ID为依据。1天内同一访客
2017-01-18 16:30:31
407
原创 Resourcemanager HA
1.官网resourcemanager HA IntroductionThis guide provides an overview of High Availability of YARN's ResourceManager, and details how to configure and use this feature. The ResourceManager (RM)
2017-01-18 15:49:36
2117
原创 Namenode HA
由于单个namenode节点挂掉之后,整个集群就不会提供服务,为此,提出了HA,增加另一个namenode节点,做热备。(配置HA架构之前,关闭整个集群) 1、JournalNode-》轻量级-》存储日志文件的 2、两个namenode管理的是同一个元数据 3、首先将core-site.xml 4、将hdfs-site.xml中的SNN删除 5、配置namese
2017-01-18 15:36:28
302
转载 zookeeper的一些理解
1.为了解决分布式事务性一致的问题2.文件系统也是一个树形的文件系统,但比Linux系统简单,不区分文件和文件夹,所有的文件统一称为znode3.znode的作用:存放数据,但上限是1M ;存放ACL(access control list)访问控制列表,每个znode被创建的时候,都会带有一个ACL,身份验证方式有三种:digest(用户名密码验证),host(主机名验证),ip(ip验证)
2017-01-17 19:49:15
1902
原创 spark一些优化
选择一个对的API资源参数调优资源:内存&&CPU&&GC bin/spark-submit --help 运行这个,有很多配置参数,就可以调优spark-submit参数调优 dirver要接受返回值,如果返回的RDD很大,就需要DIRVER需要大的内存;driver很耗内存的,比executor的内存要大,要设大一点。 spark-submit脚本中的资源相关参数 ===> 资源参数
2017-01-14 20:41:40
428
1
原创 spark的standalone的HA配置
High Availability By default, standalone scheduling clusters are resilient to Worker failures (insofar as Spark itself is resilient to losing work by moving it to other workers). However, the schedule
2017-01-14 15:18:39
400
原创 spark本地模式和Standalone配置
local模式非常适合作业的开发调试,配置也很简单,把编译好的文件解压,然后配置即可使用。使用自己编译产生的tgz压缩包 步骤: 前提:安装Scala(2.10.4)和JDK(1.7.x+) - 解压 ln -s spark-1.6.0-bin-2.5.0/ spark - 修改相关参数 到/spark/conf目录下修改文件 vim spark-env.sh
2017-01-13 19:36:59
3895
原创 一个Hadoop错误解决
这个问题我在网上度娘了很多,都是让去重新格式化namenode,但是这种做法太狠了,,,,,很多东西,就会没了,最后还是没忍心去做。 然后我到Hadoop安装的目录下去看看,在存放的tmp有很多未执行的jar,删除之后,重新启动,就可以使用了。 还好没放弃。哈哈,,,,我是执行bin/hdfs dfs -put wc.input /sparktest 上传文件的时候出现错误的;错误如下:17/
2017-01-13 11:09:28
390
原创 Scala包
package com { package horstmann { object A { def hi = println("I'm A") } package impatient { object B extends App { def hi = A.hi hi } } }}这个可以执
2017-01-09 15:41:17
254
原创 spark一些总结
sparkSpark 对待 转化操作和行动操作的方式很不一样,因此理解你正在进行的操作的类型是很重要的。如 果对于一个特定的函数是属于转化操作还是行动操作感到困惑,你可以看看它的返回值类 型:转化操作返回的是 RDD,而行动操作返回的是其他的数据类型。转化出来的 RDD 是惰性 求值的,只有在行动操作中用到这些 RDD 时才会被计算RDD 还有一个 collect() 函数,可以用来获取整 个
2017-01-08 19:35:59
334
原创 学习spark的网站
http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html
2017-01-08 17:37:54
54227
原创 spark环境编译
spark环境的搭建和联系spark包括SparkCore: 核心部分SparkSQL: Spark中交互式处理模块SparkStreaming: Spark中流式数据处理的模块SparkMLib:Spark机器学习相关模块 => MahoutSparkGraphX: Spark中图形计算的模块编译spark配置文件修改 make-distribution.sh文件(:130,跳转到相应的
2017-01-07 19:48:25
663
转载 Hadoop集群端口(2.x)
Hadoop集群的各部分一般都会使用到多个端口,有些是daemon之间进行交互之用,有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如此,以便查询。这里包含我们使用到的组件:HDFS, YARN, HBase, Hive, ZooKeeper:组件节点默认端口配置用途说明H
2017-01-07 17:08:04
564
原创 二进制1的个数
说明:题目如标题package edu.liangman.offer;/** * Created by lm on 2017/1/4. */public class Num0fOne { public static void method1(int number){ int flag = 1; int count = 0; while(f
2017-01-04 16:27:55
247
原创 阿里云maven仓库
maven仓库http://maven.aliyun.com/nexus/#view-repositories;public~browsestorage在maven的settings.xml 文件里配置mirrors的子节点,添加如下mirror<mirror> <id>nexus-aliyun</id> <mirrorOf>*</mirrorOf> <name>Nexus
2017-01-03 20:57:25
532
原创 旋转数组中的最小值
问题如果有一个序列,后一个元素大于等于前一个算数,然后旋转数组的元素,把前面的元素放到序列的后面; 例如原始数据为: 1,2,3,4,5,6 其中的一个选装为: 3,4,5,6,1,2 然后求旋转后的数组中的最小值 思路:其实最简单的就是遍历一遍数组,冒泡一下,其时间复杂度为O(n);有没有什么可以改进一下那,要充分利用已知条件,旋转后的数组可以化为两个有序的子数组,对于有序的数组可以采
2017-01-03 14:54:48
269
原创 重置二叉树
问题描述:根据二叉树的前序和后序遍历的结果,构建二叉树;代码实现package edu.liangman.offer;/** * Created by lm on 2017/1/3. */public class RebuldBinTeee { public static TreeNode bulid(int[] pre,int preStart,int preEnd,int[] in,
2017-01-03 10:57:00
325
转载 自定义InputFormat
觉得这几篇文章写的不错,受益很多,收集一下;都是关于自定义inputformathttp://blog.csdn.net/xiaomin1991222/article/details/50981362http://irwenqiang.iteye.com/blog/1448164
2017-01-02 20:27:08
357
原创 KMP
package edu.liangman.offer;/** * Created by lm on 2017/1/1. */public class KMP {public int[] getNext(String b){ int len=b.length(); int j=0; int next[]=new int[len+1];//next表示长度为i的字符串前缀
2017-01-01 15:41:51
278
原创 归并排序
1、复杂度分析 总的时间复杂度为O(nlogn),而且这是归并排序算法中最好、最坏、平均的时间性能。 由于归并排序在归并过程中需要与原始序列同样数量的存储空间存放归并结果以及递归时深度为这里写图片描述的栈空间,因此空间复杂度为O(n+logn). 另外,对代码进行仔细研究,发现merge函数中有if (a[i] < a[j]) 的语句,说明它需要两两比较,不存在跳跃,因此归并排序是一种稳定
2016-12-31 19:31:32
319
原创 替换空格为%20
1.题目 2.理解 可以从前往后依次遍历其内容,如果为’ ‘字符,做替换,但是每次后面的数据都要移动,使其时间复杂度变大,从前面不行,我们就可以从后面,改变移动的次数; 3.代码package edu.liangman.offer;/** * Created by lm on 2016/12/31. */public class ReplaceSpace { //定义一个替
2016-12-31 15:32:32
299
原创 storm trident一些总结
可以在创建topology的时候设置超时时间 setMessagetimeout默认时间是三十秒链式调用 each 用于指定对stream中的每一个tuple进行指定的操作,需要指定tuple那些tuple操作; 对trident的操作要考虑是否跨网络传输,是否跨分区 filter过滤操作,只是判断某个tuple是否保留,无需夸网络和分区 each 指定传到操作中只是tuple的 子集(
2016-12-30 14:53:23
1149
原创 Scala一些总结
对于定义递归函数,必须指定函数的返回值守卫和推导式可以转换为a.filter(…).map(….) -用toMap方法可以将对偶集合转换成映射Map keys.zip(values).toMap建议当使用取值的时候,如果函数没有参数,可以省略括号(),但是如果是设置值,应该加上(),这是一种好的习惯在Scala中,方法可以访问该类所有对象的私有字段对象私有字段 private [this
2016-12-27 14:59:41
213
原创 Scala Map
1、map代表的是<key,value>的映射 2、创建不可变的map,默认情况下都是不可变的,一般不常用 val stu = Map("jack" -> 20 , "tom" -> 21, "peter" -> 22) 3、创建可变的map val stu = scala.collection.mutable.Map("jack" -> 20 , "tom" ->
2016-12-26 15:09:35
2465
原创 Scala数组
在Scala中,数组是一种特殊的collection。一方面,Scala数组与Java数组是一一对应的。即Scala数组Array[Int]可看作Java的Int[],Array[Double]可看作Java的double[],以及Array[String]可看作Java的String[]。但Scala数组比Java数组提供了更多内容。首先,Scala数组是一种泛型。即可以定义一个Array[T],
2016-12-26 14:55:30
1120
原创 Scala for循环
三种表达式Range 是左闭右开,这个可以有步长until是左闭右开to 是左右都闭合的演示to until Range for循环♻️var a = 0; val numList = List(1,2,3,4,5,6,7,8,9,10); // for 循环 for( a <- numList if a != 3; if a < 8
2016-12-26 11:37:34
1347
原创 Scala控制语句
控制语句if…else,while,do…while,Breaksif…else…if语句 if表达式本身是有值的 if(age > 18) 1 else 0 以这个例子为列,整个表达式的值就是1 最后一个语句就是表达式的返回值 这条语句没有返回值,因为isadult = 1仅仅只是赋值 if(age > 18) isadult = 1 else isadult = 0 if语句的类
2016-12-26 09:56:06
367
原创 Flume实时抽取监控目录数据
什么是flumeFlume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。它是一个基于流数据的简单而灵活的架构。具有健壮的可靠性,容错性及故障转移和恢复机制。flume原理简介(博客上看到的)这是一个关于池子的故事。有一个池子,它一头进水,另一头出水,进水口可以配置各种管子,出水口也可以配置各种管子,可以有多个进水口、多个出水口。水术语称为Event,进水口术语称为Source、出
2016-12-25 19:31:24
7134
原创 Scala 基础
Scala官网:http://www.scala-lang.org/当练习ScalaAPI的时候,可以使用命令行进行操作,但你首先要配置好环境,这个很好配置。Scala安装与环境变量设置 http://www.scala-lang.org/download/基础语法整数相加scala> 1+1res0: Int = 2变量乘法scala> res0 * 5res1: Int = 1
2016-12-25 19:13:51
255
原创 企业大数据cloudera manager安装使用
我安装的时候,使用“一起写office”编写的,发到博客上会有一些问题,在这里发出我的共享地址,https://yiqixie.com/d/home/fcADgIxvDWA2fVPI5Jo8GPOvK
2016-12-25 17:26:18
336
原创 stom实时单词统计
1.微批处理可以根据数据的条数或者间隔时间来定。实时处理有两种方式。一是持续流处理,二是微批处理。2数据纪录处理情况一是至少一次, 存在重复处理二是有且仅有一次 严格三是至多一次 存在漏出里3.配置stom.yaml(python格式,注意文件的配置)# Licensed to the Apache Software Foundation (ASF)
2016-12-25 17:12:00
398
转载 java线程安全问题之静态变量、实例变量、局部变量
Java多线程编程中,存在很多线程安全问题,至于什么是线程安全呢,给出一个通俗易懂的概念还是蛮难的,如同《java并发编程实践》中所说:写道给线程安全下定义比较困难。存在很多种定义,如:“一个类在可以被多个线程安全调用时就是线程安全的”。 此处不赘述了,首先给出静态变量、实例变量、局部变量在多线程环境下的线程安全问题结论,然后用示例验证,请大家擦亮眼睛,有错必究,否则
2016-12-22 10:37:50
265
scala-2.11.8.tgz
2018-05-11
HTTP权威指南(高清带目录)
2018-04-11
Redis开发与运维 pdf
2018-03-29
《像计算机科学家一样思考Python》
2017-09-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅