一剑霜寒_-CSDN博客

原创 Python 小作业 01

要求：1：输入用户姓名2：认证成功后显示欢迎信息3：错误三次后锁定code:# 编写登陆口name ='zhang'password= '123'count=0for i in range(10): log_name= input("请输入登陆名字：") log_passwd = input("请输入登陆密码：") if log_n...

2019-05-23 11:29:50 413

原创使用eclpse编写udf函数

使用eclipse编写UDF函数2017年06月08日 13:03:40阅读数：424在做日志分析的过程中，用到了Hadoop框架中的Hive，不过有些日志处理用hive中的函数处理显得力不从心，就需要用udf来进行扩展处理了1 在eclipse中新建Java project hiveudf 然后新建class package(com.afan) name(UDFLo...

2018-07-26 15:16:05 366

原创大数据实战：五（离线计算）

目录课程大纲（HDFS详解）.............................................................................................................. 21. HDFS前言................................................................

2018-07-19 17:06:53 3195 2

原创大数据实战：四（轻量级 rpc 框架开发）

一：主要内容掌握RPC原理，掌握nio操作，掌握netty简单的api，掌握自定义rpc框架 RPC原理学习什么是RPC RPC（Remote Procedure Call Protocol）——远程过程调用协议，它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为...

2018-07-17 11:28:23 621

原创分布式协调场景应用(zookeeper)

业务场景：有一个集群式的服务器，提供对外的服务，问题一：服务器会根据服务的负载会增加服务器，有时候增加两台有时候会增加多台的服务器，或者是有时候服务器会宕机掉线，则产生一个问题就是，服务器的集群会产生动态的变化。则会产生一个问题，服务器是为客户端提供服务的，并且客户端有很多，则客户端他怎么能知道服务器宕机或者增加怎么会知道目的是，客户端要知道哪些服务器上线哪些服务器下线，当我请...

2018-07-12 17:27:26 317

原创 JUnit4 中@AfterClass @BeforeClass @after @before的区别对比

JUnit4使用Java5中的注解（annotation），以下是JUnit4常用的几个annotation： @Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次）@Test：测试方法，在这里可以测试期望异常...

2018-07-12 10:46:08 184

原创大数据实战：三 (下 zookeeper 操作)

高可用的服务监控A: keepalived 他是服务于服务端的,访问的虚拟ipB: zk rpc框架比较繁琐麻烦，zk的最少安装的服务器为1台。但是但台服务器挂了，就完了，因为zk的安装节点为计数就可以的。zk的集群结构最少三台服务器，因为在配置文件中他们有配置哪一个主哪一些是从，如何选举呢其实在这涉及到一个算法PAXOS 但是zk是把他简化之后的=》叫做 Zab来进行投票的每...

2018-07-12 09:31:03 270

Zookeeper1. Zookeeper概念简介：Zookeeper是一个分布式协调服务；就是为用户的分布式应用程序提供协调服务A、zookeeper是为别的分布式程序服务的B、Zookeeper本身就是一个分布式程序（只要有半数以上节点存活，zk就能正常服务）C、Zookeeper所提供的服务涵盖：主从协调、服务器节点动态上下线、统一配置管理、分布式共享锁、统一名称服务……D、虽然说可以提供...

2018-07-10 15:20:58 188

原创大数据实战：二（主要讲解shell的基础）

sortsort 命令对 File 参数指定的文件中的行排序，并将结果写到标准输出。如果 File 参数指定多个文件，那么 sort 命令将这些文件连接起来，并当作一个文件进行排序。sort语法 [root@www ~]# sort [-fbMnrtuk] [file or stdin]选项与参数：-f ：忽略大小写的差异，例如 A 与 a 视为编码相同；-b ：忽略最前面的空格符部分；-M ...

2018-07-05 11:28:01 332

原创大数据实战：一（主要讲解linux的基础）

一 : linux和windos的分区的区别。windos的分区：每个分区就是一个可分出的一个盘lunx的分区：其实linux和windos的最大的区别就是，所有的硬盘是挂在linux的根（‘/’）目录下的bin目录：就是linux系统里面的命令文件夹的一些操作boot目录：就是linux的启动时加载的一些配置文件的参数，可以在里面修改一些参数，，，例如系统启动时进入图形化的界面 ...

2018-07-04 17:33:58 738

原创 hive内置函数大全

一、查看函数 show functions 显示hive下内置所有函数 desc function extended add_months 显示add_months 函数用法二、按首字母排序 hive版本1.1.0-cdh5.7.0.函数Usage举例!! a - Logical notNo example for !.%a % b - Returns the r...

2018-07-03 15:02:49 2721

原创 Hadoop2.6.0+Spark1.4.0集群安装

1，要求你已经成功把Hadoop集群安装完毕，并经过测试，如果不知道如何编译安装Hadoop请参考散仙的这篇文章http://qindongliang.iteye.com/blog/2222145 2，安装Scala2.10.x版本，spark1.4.0最新版本的兼容2.10.x的scala，建议还是安装scala2.10.x的，虽然scala最新的版本是2.11.x了安装方法：（1） wge...

2018-07-03 10:45:50 332

原创 hive的行列转换

一、列转行 (对某列拆分，一列拆多行)使用函数：lateral view explode(split(column, ',')) numeg: 如表：t_row_to_column_tmp 数据如下，对tag列进行拆分SQL代码：select id,tag,tag_newfrom t_row_to_column_tmplateral view explode(split(tag, ',')) nu...

2018-06-28 16:45:11 2128

原创关于scala的小程序（打印偶数的倍数）

自定义有方法，无返回参数，g其实返回的是一个数组，最下面的则是for循环，将g数据便利出来def array_test() : Unit ={ val c = Array(2,4,5,7,11) val g = for (x <- c if x % 2 == 0 ) yield 2 * x for(f <- g){ print(f) }}...

2018-05-28 11:13:35 1351

原创 airflow 安装简单版

首先安装命令为:pip install airflow也可以:pip install airflow[参数]参数如下:subpackageinstall commandenablesallpip install airflow[all]All Airflow features k

2017-12-29 16:51:40 713

原创 centos 7 安装airflow

centos7 安装airflow由于airflow是个比较新的东西，安装时，不免踩了很多坑。什么centos7 数据库需要换成mariadb，什么yum install python-mysql ,坑死人。可能这也跟系统的环境有关，因为版本不同，命令也不同。下面的步骤希望能帮到大家！1.先测试自己的环境是否有wget命令，没有的话需要进行安装：

2017-12-29 16:32:02 1565

原创 Hadoop的 HA的搭建

Hadoop HA高可用集群搭建（2.7.2）1.集群规划：主机名 IP 安装的软件运行的进程drguo1 192.168.80.149 jdk、hadoop NameNode、DFSZKFailoverContro

2017-12-29 10:51:36 238

原创 hive的内置函数

在Hive中，函数包括以下类型：一、内置函数1、数学函数[plain] view plain copy（1）round：四舍五入 select round(数值,小数点位数); （2）ceil：向上取整 select ceil(45.6); --46 （3）floor

2017-11-27 16:06:17 725

原创 Hive系列之HSQL转换成MapReduce过程

hive的库、表等数据实际是hdfs系统中的目录和文件，让开发者可以通过sql语句，像操作关系数据库一样操作文件内容，比如执行查询，统计，插入等操作。一直很好奇hive是如何做到这些的。通过参考网上几篇不错的文档，有点小心得分享出来。主要的参考链接http://tech.meituan.com/hive-sql-to-mapreduce.htmlhttp://www.slideshare

2017-11-23 17:47:08 2438

原创 hive的行转列，列转行

HIVE 查询显示列名及行转列显示http://blog.csdn.net/iquicksandi/article/details/8515453hive行转列（Lateral View explode()）http://blog.csdn.net/iquicksandi/article/details/8515453=============

2017-11-23 17:42:13 640

原创 kafka的数据可靠性

Kakfa起初是由LinkedIn公司开发的一个分布式的消息系统，后成为Apache的一部分，它使用Scala编写，以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark等都支持与Kafka集成。Kafka与传统消息系统相比，有以下不同：它被设计为一个分布式系统，易于向外扩展；

2017-11-23 09:38:07 283

原创 centos 7 与 6的运行区别

linux运行级别:centos6(init或systemv)0 关机halt1 单用户模式(用于维护，无需用户名、密码登录)2 多用户模式(不启用网络功能)3 多用户模式(带网络功能)，命令行界面(CLI:command line interface)4 未定义5 图形界面(桌面环境)6 重启reboot

2017-11-23 09:04:02 237

原创 myeclipse下搭建hadoop2.7.3开发环境

需要下载的文件：链接：http://pan.baidu.com/s/1i5yRyuh 密码：ms91 一下载并编译 hadoop-eclipse-plugin-2.7.3.jar二将hadoop-eclipse-plugin-2.7.3.jar放到myeclipse的安装目录下的plugins目录下，并重启myeclipse　　在windows->pref

2017-11-22 14:14:48 551

原创 hadoop 常见错误

如果大家在安装的时候遇到问题，或者按步骤安装完后却不能运行Hadoop，那么建议仔细查看日志信息，Hadoop记录了详尽的日志信息，日志文件保存在logs文件夹内。无论是启动，还是以后会经常用到的MapReduce中的每一个job，以及HDFS等相关信息，Hadoop均存有日志文件以供分析。1、hadoop-root-datanode-master.log 中有如下错误

2017-11-21 14:30:34 286

原创 centos 7 安装 hadoop 2.7.1

CentOS 7 安装Hadoop 2.7.1 两台机器 CentOS7（机器名分别为master-CentOS7、slave-CentOS7）内存2G （笔记本开虚拟机快撑不住了╮(╯-╰)╭ CentOS7 与 CetnOS6 有一些区别网络配置master-CentOS7[root@localhost ~]

2017-11-20 16:06:11 565

原创 flume link kafka的配置文件

#两个channels 和两个 sinkagent.sources = sagent.channels = c c1agent.sinks = r k#这就是source 把源数据打向两个channelsagent.sources.s.channels = c c1agent.sources.s.type = execagent.sources.s.comman

2017-11-20 15:21:56 343

原创 hadoop 2.x yarn 的工作机制

1.1 YARN 基本架构YARN是Hadoop 2.0中的资源管理系统，它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务：一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配，而ApplicationMaster负责单个应用程序的管理。

2017-11-20 15:07:02 221

frostbite_Sword的博客

原创 hive 查看字符串的位置