自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 hive的同比、环比计算(add_months 函数)

说明:同比:同去年的今天进行比较环比:同上个月的今天进行比较环比计算一、先看一下数据,这里只能进行7.10号和6.10号进行对比,比到12号这里是引用±------------------------±-----------------------±-----------------------------±-------------------------+| bas_cgj_ssrlsj1.spotid | bas_cgj_ssrlsj1.times | bas_cgj_ssrlsj1.

2020-09-04 16:56:20 14428 4

原创 Hbase的客户端连接及使用

package cn.edu360.hbase.demo;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescri...

2019-03-29 15:45:07 2752

原创 Hive 自定义UDF函数使用

–自定义函数有如下json数据:rating.json{“movie”:“1193”,“rate”:“5”,“timeStamp”:“978300760”,“uid”:“1”}{“movie”:“661”,“rate”:“3”,“timeStamp”:“978302109”,“uid”:“1”{“movie”:“914”,“rate”:“3”,“timeStamp”:“978301968”...

2019-03-27 17:08:59 400

原创 hive复合数据类型查表使用 以及控制语句 case when、if

–hive中的复合数据类型–数组–有如下数据战狼2,吴京:吴刚:龙母,2017-08-16三生三世十里桃花,刘亦菲:杨洋,2017-08-20普罗米修斯,苍老师:小泽老师:波多老师,2017-09-17–建表映射:create table t_movie(movie_name string,actors array<string>,first_show date)row...

2019-03-27 12:28:47 525

原创 hive表的连接、聚合、where查询、having查询区别、过滤、子查询的使用

先创建两个文本a.txta,1b,2c,3d,4b.txta,xxb,yyd,zze,pp一、基本表连接、创建表、插入数据create table t_a(name string,numb int)row format delimitedfields terminated by ',';create table t_b(name string,nick string...

2019-03-25 17:24:45 1333

原创 HDFS的java客户端api基本使用

import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;public class HdfsClientDemo { public static void main(String[] args) throws Exc...

2019-03-20 13:35:15 624

转载 map和flatmap

说明在spark中map函数和flatMap函数是两个比较常用的函数。其中map:对集合中每个元素进行操作。flatMap:对集合中每个元素进行操作然后再扁平化。理解扁平化可以举个简单例子val arr=sc.parallelize(Array((&quot;A&quot;,1),(&quot;B&quot;,2),(&quot;C&quot;,3)))arr.flatmap(x=&amp;gt;(x._1+x._2)).foreach(p

2019-01-20 22:01:48 5447

原创 Hbase基本命令使用

HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MapReduce来处理Big...

2019-01-14 19:21:36 499

原创 Kafka

KafkaKafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等,用scala语言编写,Lin...

2019-01-10 17:48:46 90

转载 Flume日志收集

转自:http://blog.csdn.net/a2011480169/article/details/51544664在具体介绍本文内容之前,先给大家看一下Hadoop业务的整体开发流程:从Hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也是不可避免的一步,从而引出我们本文的主角—Flume。本文将围绕Flume的架构、Flume的应用(日...

2019-01-09 16:07:44 370

原创 Phoenix的配置及使用

设计理念(1)解决HBase不支持创建索引、不支持聚合函数的问题(2)Phoenix是架构在HBase上的JDBC工具,使用HBase的API和SQL语句对HBase表进行增删改查(3)使用比Hive快很多,兼具了HBase的快速、SQL语句和聚合函数一、安装配置1.tar -zxvf apache-phoenix-4.10.0-HBase-1.2-bin.tar.gz -C /opt/...

2019-01-04 22:49:05 7989

原创 hbase的安装

1,准备工作:1),jdk 1.82),hadoop 2.7.43),hbase 1.2.64),zookeper 3.4.9 (这些都是互相兼容版本)5,)4台机器(t124,t125,t126,t127)2,安装hbase(完全分布式 4台机器)1,首先解压hbase tar -zxvf hbase-1.2.6.tar.gz -C /opt/m...

2019-01-04 15:42:04 122

原创 spark-Sql

Dataframe的两种使用:Api sql要想使用sql api首先要使用一种sparksession对象来产生dataframe 或者dataset也可以使用一种叫做sqlcontext产生 sqlcontext的创建需要依赖于sparkcontext也可以使用hivecontext来产生,必须要在sqlContext基础上来创建由此可见 我们的底层还是靠sparkContext...

2019-01-03 15:32:25 161

原创 Zeppelin-RDD

一、Zeppelin介绍:Apache Zeppelin 是一个让交互式数据分析变得可行的基于网页的notebook。Zeppelin提供了数据可视化的框架。Zeppelin提供了数据分析、数据可视化等功能。Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档,并且支持多种语言,包括 Scala(使用 Apache Spark)、P...

2019-01-03 15:20:08 294

原创 hive基本语法和函数

基本命令:1、 create database 创建数据库2、Show databases; 显示数据库3、desc 表明 显示表的详细情况/4、desc formatted 显示的更详细5、Drop database 删除6、select current_database(); 可查看当前在哪个数据库7、show create table 查看表结构8、Hdfs dfs -p...

2018-12-31 22:05:15 4496

原创 Scala正则表达式

Scala 的正则表达式继承了 Java 的语法规则,Java 则大部分使用了 Perl 语言的规则。下表我们给出了常用的一些正则表达式规则:表达式 匹配规则^ 匹配输入字符串开始的位置。$ 匹配输入字符串结尾的位置。. 匹配除"\r\n"之外的任何单个字符。[…] 字符集。匹配包含的任一字符。例如,"[abc]“匹配"plain"中的"a”。[^…] 反向字符集。匹配未包含的...

2018-12-29 16:12:46 757

原创 Scala Trait(特征)

Scala Trait(特征)Scala Trait(特征) 相当于 Java 的接口,实际上它比接口还功能强大。与接口不同的是,它还可以定义属性和方法的实现。一般情况下Scala的类只能够继承单一父类,但是如果是 Trait(特征) 的话就可以继承多个,从结果来看就是实现了多重继承。Trait(特征) 定义的方式与类类似,但它使用的关键字是 trait,如下所示:trait Equal...

2018-12-29 15:51:40 113

转载 大数据之路

前言:一、背景介绍二、大数据介绍正文:一、大数据相关的工作介绍二、大数据工程师的技能要求三、大数据学习规划四、持续学习资源推荐(书籍,博客,网站)五、项目案例分析(批处理+实时处理)前言一、背景介绍本人目前是一名大数据工程师,项目数据50T,日均数据增长20G左右,个人是从Java后端开发,经过3个月的业余自学成功转型大数据工程师。二、大数据介绍大数据本质也是数据,但是又...

2018-12-25 20:17:39 415

原创 爬虫实例

scrapy是python最有名的爬虫框架之一,可以很方便的进行web抓取,并且提供了很强的定制型,这里记录简单学习的过程和在实际应用中会遇到的一些常见问题一、安装在安装scrapy之前有一些依赖需要安装,否则可能会安装失败,scrapy的选择器依赖于lxml,还有Twisted网络引擎,还需要配置python的环境变量 以及python的script的变量以下是windows安装:Scr...

2018-12-24 19:45:44 3036

原创 Python面向对象和异常

一、Python类和对象简述1,类:具有相同的属性和方法的对象的集合2,对象:万物皆对象对象定义对象使用:类名(参数) 可以把他赋给一个变量,这样好调用方法和属性我们可以根据对象,属性来创建属性但这个属性只属于本对象,可以self来调用(self代表本类和Java的this差不多)但这样直接考.出来的属性并不实用,我们一般都是在init函数自己定义属性,这样全局类都可以实用了3,类的定...

2018-12-24 19:07:25 149

原创 Python函数

Python函数一.函数是组织好的,可重复使用的,用来实现单一,或相关联功能的代码段二.语法:def 函数名(参数列表):函数体return XXX可以返回多个值,返回的多个值组成一个元组,返回值加上一对中括号,则返回一个列表函数分为定义和调用三.可更改(mutable)与不可更改(immutable)对象1,在 python 中,strings, tuples, 和 number...

2018-12-24 18:46:37 81

原创 Python元组、字典、集合的使用

**Python三元组(tuple)1,元组(和列表差不多,但里面值不可变的(是地址不可变))格式:元组=(内容,内容,内容)如果元组只有一个数则后面要加一个,来做标识他增删改都是不可以的但可以使用运算符来增加值2,访问元组(元组与字符串类似,下标索引从0开始,可以进行截取,组合等)元组[0]=第一个值元组[:]=取所有值3,修改元组(添加元组)可以使用加号添加值格式:元组=元...

2018-12-24 18:44:38 153

原创 Python进阶

一、Python字符串运算符1,+ 字符串连接2, 重复输出字符串3,[] 通过索引获取字符串中字符4,[:] 截取字符串中的一部分,也就是切边5,in 成员运算符-如果字符串中包含给定的字符串返回6,not in 成员运算符 - 字符串中不包含给定的字符串返回true7,r或者R 就死将字符串里的内容原样的输入,字符串不会有任何的改变8,%格式化字符串*二、Pyth...

2018-12-24 18:41:26 79

原创 初识Python

Python简介: python官方给的是胶水语言,所谓什么是胶水语言我们可以百度一下,用官方的说法其实就是一个系统由多种语言编写,但要考虑到这些语言编写的功能模块相互链接,把他们按照模块打包起来,最外层使用python调用这些封装好的的包,这就是胶水语言的体现,但我认为Python又是一种脚本语言,因为他不需要编译,只需要系统解释器来解释就可以完成运行和JavaScript差不多,这样会省去一...

2018-12-24 18:36:06 115

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除