自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

frostbite_Sword的博客

自己的心得和大家一起分享一下,希望可以帮助大家

  • 博客(28)
  • 资源 (1)
  • 收藏
  • 关注

原创 hive 查看字符串的位置

2019-08-09 16:38:25 11744

原创 Python 小作业 01

要求:1:输入用户姓名2:认证成功后显示欢迎信息3:错误三次后锁定code:# 编写登陆口name ='zhang'password= '123'count=0for i in range(10): log_name= input("请输入登陆名字:") log_passwd = input("请输入登陆密码:") if log_n...

2019-05-23 11:29:50 413

原创 使用eclpse编写udf函数

使用eclipse编写UDF函数2017年06月08日 13:03:40阅读数:424在做日志分析的过程中,用到了Hadoop框架中的Hive,不过有些日志处理用hive中的函数处理显得力不从心,就需要用udf来进行扩展处理了1  在eclipse中新建Java project   hiveudf   然后新建class  package(com.afan)  name(UDFLo...

2018-07-26 15:16:05 366

原创 大数据实战:五(离线计算)

目录课程大纲(HDFS详解).............................................................................................................. 21. HDFS前言................................................................

2018-07-19 17:06:53 3195 2

原创 大数据实战:四(轻量级 rpc 框架开发)

一:主要内容       掌握RPC原理,掌握nio操作,掌握netty简单的api,掌握自定义rpc框架 RPC原理学习 什么是RPC           RPC(Remote Procedure Call Protocol)——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为...

2018-07-17 11:28:23 621

原创 分布式协调场景应用(zookeeper)

业务场景:有一个集群式的服务器,提供对外的服务,问题一:        服务器会根据服务的负载会增加服务器,有时候增加两台有时候会增加多台的服务器,或者是有时候服务器会宕机掉线,则产生一个问题就是,服务器的集群会产生动态的变化。则会产生一个问题,服务器是为客户端提供服务的,并且客户端有很多,则客户端他怎么能知道 服务器宕机或者增加 怎么会知道目的是,客户端要知道哪些服务器上线哪些服务器下线,当我请...

2018-07-12 17:27:26 317

原创 JUnit4 中@AfterClass @BeforeClass @after @before的区别对比

JUnit4使用Java5中的注解(annotation),以下是JUnit4常用的几个annotation: @Before:初始化方法   对于每一个测试方法都要执行一次(注意与BeforeClass区别,后者是对于所有方法执行一次)@After:释放资源  对于每一个测试方法都要执行一次(注意与AfterClass区别,后者是对于所有方法执行一次)@Test:测试方法,在这里可以测试期望异常...

2018-07-12 10:46:08 184

原创 大数据实战:三 (下 zookeeper 操作)

高可用的服务监控A: keepalived  他是服务于服务端的,访问的虚拟ipB: zk          rpc框架比较繁琐麻烦,zk的最少安装的服务器为1台。但是但台服务器挂了,就完了,因为zk的安装节点为计数就可以的。zk的集群结构最少三台服务器,因为在配置文件中他们有配置哪一个主哪一些是从,如何选举呢其实在这涉及到一个算法PAXOS 但是zk是把他简化之后的=》叫做 Zab来进行投票的每...

2018-07-12 09:31:03 270

原创 大数据实战:三(上 zookeeper集群安装)

Zookeeper1.  Zookeeper概念简介:Zookeeper是一个分布式协调服务;就是为用户的分布式应用程序提供协调服务A、zookeeper是为别的分布式程序服务的B、Zookeeper本身就是一个分布式程序(只要有半数以上节点存活,zk就能正常服务)C、Zookeeper所提供的服务涵盖:主从协调、服务器节点动态上下线、统一配置管理、分布式共享锁、统一名称服务……D、虽然说可以提供...

2018-07-10 15:20:58 188

原创 大数据实战:二(主要讲解shell的基础)

sortsort 命令对 File 参数指定的文件中的行排序,并将结果写到标准输出。如果 File 参数指定多个文件,那么 sort 命令将这些文件连接起来,并当作一个文件进行排序。sort语法 [root@www ~]# sort [-fbMnrtuk] [file or stdin]选项与参数:-f  :忽略大小写的差异,例如 A 与 a 视为编码相同;-b  :忽略最前面的空格符部分;-M ...

2018-07-05 11:28:01 332

原创 大数据实战:一(主要讲解linux的基础)

一 : linux和windos的分区的区别。windos的分区: 每个分区就是一个可分出的一个盘lunx的分区 : 其实linux和windos的最大的区别就是,所有的硬盘是挂在linux的 根(‘/’)目录下的bin目录: 就是linux系统里面的 命令文件夹的一些操作boot目录: 就是linux的启动时加载的一些配置文件的参数,可以在里面修改一些参数,,,例如系统启动时进入图形化的界面  ...

2018-07-04 17:33:58 738

原创 hive内置函数大全

一、查看函数        show functions 显示hive下内置所有函数        desc function extended add_months 显示add_months 函数用法二、按首字母排序    hive版本1.1.0-cdh5.7.0.函数Usage举例!! a - Logical notNo example for !.%a % b - Returns the r...

2018-07-03 15:02:49 2721

原创 Hadoop2.6.0+Spark1.4.0集群安装

1,要求你已经成功把Hadoop集群安装完毕,并经过测试,如果不知道如何编译安装Hadoop请参考散仙的这篇文章http://qindongliang.iteye.com/blog/2222145 2,安装Scala2.10.x版本,spark1.4.0最新版本的兼容2.10.x的scala,建议还是安装scala2.10.x的,虽然scala最新的版本是2.11.x了 安装方法: (1) wge...

2018-07-03 10:45:50 332

原创 hive的行列转换

一、列转行 (对某列拆分,一列拆多行)使用函数:lateral view explode(split(column, ',')) numeg: 如表:t_row_to_column_tmp 数据如下,对tag列进行拆分SQL代码:select id,tag,tag_newfrom t_row_to_column_tmplateral view explode(split(tag, ',')) nu...

2018-06-28 16:45:11 2128

原创 关于scala的小程序(打印偶数的倍数)

自定义有方法,无返回参数,g其实返回的是一个数组,最下面的则是for循环,将g数据便利出来def array_test() : Unit ={  val  c = Array(2,4,5,7,11)  val g = for (x <- c if x % 2 == 0 ) yield 2 * x  for(f <- g){    print(f)  }}...

2018-05-28 11:13:35 1351

原创 airflow 安装简单版

首先安装命令为:pip install airflow也可以:pip install airflow[参数]参数如下:subpackageinstall commandenablesallpip install airflow[all]All Airflow features k

2017-12-29 16:51:40 713

原创 centos 7 安装airflow

centos7 安装airflow由于airflow是个比较新的东西,安装时,不免踩了很多坑。什么centos7 数据库需要换成mariadb,什么yum install python-mysql ,坑死人。可能这也跟系统的环境有关,因为版本不同,命令也不同。下面的步骤希望能帮到大家!1.先测试自己的环境是否有wget命令,没有的话需要进行安装:

2017-12-29 16:32:02 1565

原创 Hadoop的 HA的搭建

Hadoop HA高可用集群搭建(2.7.2)1.集群规划: 主机名        IP                安装的软件                            运行的进程drguo1  192.168.80.149 jdk、hadoop                         NameNode、DFSZKFailoverContro

2017-12-29 10:51:36 238

原创 hive的内置函数

在Hive中,函数包括以下类型:一、内置函数1、数学函数[plain] view plain copy(1)round:四舍五入           select round(数值,小数点位数);  (2)ceil:向上取整         select ceil(45.6); --46  (3)floor

2017-11-27 16:06:17 725

原创 Hive系列之HSQL转换成MapReduce过程

hive的库、表等数据实际是hdfs系统中的目录和文件,让开发者可以通过sql语句, 像操作关系数据库一样操作文件内容, 比如执行查询,统计,插入等操作。一直很好奇hive是如何做到这些的。通过参考网上几篇不错的文档, 有点小心得分享出来。主要的参考链接http://tech.meituan.com/hive-sql-to-mapreduce.htmlhttp://www.slideshare

2017-11-23 17:47:08 2438

原创 hive的行转列,列转行

HIVE 查询显示列名 及 行转列显示http://blog.csdn.net/iquicksandi/article/details/8515453hive行转列 (Lateral View explode())http://blog.csdn.net/iquicksandi/article/details/8515453=============

2017-11-23 17:42:13 640

原创 kafka的数据可靠性

Kakfa起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark等都支持与Kafka集成。Kafka与传统消息系统相比,有以下不同:它被设计为一个分布式系统,易于向外扩展;

2017-11-23 09:38:07 283

原创 centos 7 与 6的运行区别

linux运行级别:centos6(init或systemv)0    关机halt1    单用户模式(用于维护,无需用户名、密码登录)2    多用户模式(不启用网络功能)3    多用户模式(带网络功能),命令行界面(CLI:command  line  interface)4    未定义5    图形界面(桌面环境)6    重启reboot

2017-11-23 09:04:02 237

原创 myeclipse下搭建hadoop2.7.3开发环境

需要下载的文件:链接:http://pan.baidu.com/s/1i5yRyuh 密码:ms91 一  下载并编译  hadoop-eclipse-plugin-2.7.3.jar二  将hadoop-eclipse-plugin-2.7.3.jar放到myeclipse的安装目录下的plugins目录下,并重启myeclipse  在windows->pref

2017-11-22 14:14:48 551

原创 hadoop 常见错误

如果大家在安装的时候遇到问题,或者按步骤安装完后却不能运行Hadoop,那么建议仔细查看日志信息,Hadoop记录了详尽的日志信息,日志文件保存在logs文件夹内。无论是启动,还是以后会经常用到的MapReduce中的每一个job,以及HDFS等相关信息,Hadoop均存有日志文件以供分析。1、hadoop-root-datanode-master.log 中有如下错误

2017-11-21 14:30:34 286

原创 centos 7 安装 hadoop 2.7.1

CentOS 7 安装Hadoop 2.7.1   两台机器 CentOS7(机器名分别为master-CentOS7、slave-CentOS7) 内存2G (笔记本开虚拟机快撑不住了╮(╯-╰)╭ CentOS7 与 CetnOS6 有一些区别网络配置master-CentOS7[root@localhost ~]

2017-11-20 16:06:11 565

原创 flume link kafka的配置文件

#两个channels 和两个 sinkagent.sources = sagent.channels = c c1agent.sinks = r k#这就是source 把源数据打向两个channelsagent.sources.s.channels = c c1agent.sources.s.type = execagent.sources.s.comman

2017-11-20 15:21:56 343

原创 hadoop 2.x yarn 的工作机制

1.1 YARN 基本架构YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配,而ApplicationMaster负责单个应用程序的管理。

2017-11-20 15:07:02 221

com.lenovo.da.codata_20200525112220.apk

com.lenovo.da.codata_20200525112220.apk

2022-03-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除