自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(78)
  • 收藏
  • 关注

原创 spark知识整理

2019-08-12 22:44:31 170

原创 sparkStreaming 实时窗口分析

实时就是统计分析 比如:饿了么中午和晚上,区域订单数目统计需求:最近半小时的各个区域订单状态11:0010:30~11:00 半小时时间内,订单状态,还有多少订单没有配送,多的话调人11:1010:40~11:00 半小时时间内,订单状态DStream窗口统计分析指定窗口的大小,也就是时间窗口 时间间隔模拟数据:订单号 ...

2019-08-11 22:24:37 442

原创 kafka的安装及使用

Kafka介绍分布式消息队列(messageQueue)系统 topic:主题、类别分布定义的功能 比喻:微信公众号 发布者 -》推送文章 关注公众号 订阅1 订阅2官网http://kafka.apache.org/伪分布式的方式安装k...

2019-08-11 20:46:59 177

原创 SparkStreaming的介绍及处理数据流程

介绍:流式数据处理(streamprocessing)要处理的数据就像流水一样,源源不断的产生数据,需要实时进行处理对SparkCore的高级API的封装,将流式的数据切分为小的批次batch(按照时间间隔)的数据,然后使用SparkCore进行处理在大数据技术框架中,对于流式数据的实时数据分析处理方案:一条一条的处理 来一条数据就处理一条数据 ...

2019-08-10 21:53:54 682

转载 机器学习的种类及其典型的任务

1.监督学习(1)定义:指有求知欲的学生从老师那里获取知识、信息,老师提供对错指示、告知最终答案的学习过程。在机器学习中,计算机 = 学生,周围的环境 = 老师。(2)最终目标:根据在学习过程中获得的经验技能,对没学习过的问题也可以做出正确解答,使计算机获得这种泛化能力。(3)应用:手写文字识别、声音处理、图像处理、垃圾邮件分类与拦截、网页检索、基因诊断、股票预测等。(...

2019-08-09 21:58:37 1734

原创 Spark SQL UDF(日期转换)

// 利用SimpleDateFormat类 def getDayOfWeek = (date: String) => (new SimpleDateFormat("u")).format(new SimpleDateFormat("yyyy-MM-dd").parse(date)) val weekDays: Array[String] = Array("星期日"...

2019-08-08 23:20:21 1363

原创 sparksql 自定义schema

自定义schema信息case class StructType(fields: Array[StructField])case class StructField(name: String,dataType: DataType,nullable: Boolean = true,metadata: Metadata = Metadata...

2019-08-07 21:58:55 1432

原创 ETL日志数据到HBASE表中,程序代码优化点

(1)创建表的时候 设置表的数据压缩 //设置数据压缩 family.setCompressionType(Compression.Algorithm.SNAPPY) 创建预分区 admin.createTable(desc,Array( Bytes.toBytes("145057118"),Bytes.toByt...

2019-08-06 21:44:17 256

原创 SparkCore(MapReduce)与HBase表(HFile)的数据进行交互

-1、写入数据 将结果RDD保存到HBase表中 TableOutputFormat RDD的数据变成Key-value key:rowkey, ImmutableBytesWritable value:Put def saveAsNew...

2019-08-05 21:34:38 309

原创 spark standalone

介绍spark框架自身带的 分布式集群资源管理和任务调度框架,类似于HadoopYarn框架 Standalone Yarn Master ResourceManager ...

2019-08-02 21:51:11 162

转载 数组和集合的区别

数组和集合的定义一、数组数组是java语言内置的数据类型,他是一个线性的序列,所有可以快速访问其他的元素,数组和其他语言不同,当你创建了一个数组时,他的容量是不变的,而且在生命周期也是不能改变的,还有JAVA数组会做边界检查,如果发现有越界现象,会报RuntimeException异常错误,当然检查边界会以效率为代价。二、集合JAVA还提供其他集合,list,map,s...

2019-08-02 15:31:45 219

原创 HBase 的使用和使用

导入数据的方式创建表以后,我们需要向表中 批量 的插入数据 -1.可以调用JavaAPI Put(单条,多条) -2.使用Mapreduce (1)SQOOP工具,将RDBMS中的数据导入 (2)使用自带MapReduce程序 (3)自己编写MapReduce思考 ...

2019-07-31 22:38:31 270

原创 HBase Java API

Hadoop兼容性问题解决在本机中配置环境变量配置完后需要重启电脑RegionServer内存分布 -1.用户读取数据的缓存,有时候在一段时间内反复查询数据,系统meta表的数据应全部放到内存中 -2.用于写的缓存,memStore的使用如果HBase集群,如果写的要求不高,就慢慢写,那么memstore的值可以设置小一些衍生...

2019-07-30 22:01:49 101

原创 HBase 表的使用和数据导入

HBase表中检索数据的方式方式一:全部扫描 scan方式二:单条获取 ---速度最快的 getrowkey方式三:范围查询 ---使用最多 scan 设置查询范围条件rowkey 存储是按照rowkey排序的系统表介绍meta存储着所有用户表的region信息只有一个regionCli...

2019-07-29 21:08:34 204

原创 scala中的 OOP(面向对象编程)

-1.class类 和Java中类是一样的-2.Object对象 类比 和Java单例对象 main方法运行在此处-3.trait 类比 Java中接口Interface隐式转换implicit implicit 隐式的,隐藏的 偷偷摸摸 关键词: 修饰class,修饰def,修饰变量,...

2019-07-28 21:00:24 242

转载 抽象类与接口的区别

抽象类 接口 方法默认实现 支持 不支持,接口完全是抽象的 实现 子类使用extends关键字来继承抽象类。子类如果不是抽象类,需要实现抽象类中声明的所有抽象方法 子类使用关键字implements来实现接口,需要实...

2019-07-27 17:47:43 84

转载 StringBuffer与StringBuilder的区别,及实现原理

区别1、StringBuffer 与 StringBuilder 中的方法和功能完全是等价的,2、只是StringBuffer 中的方法大都采用了synchronized关键字进行修饰,因此是线程安全的,而 StringBuilder 没有这个修饰,可以被认为是线程不安全的。3、在单线程程序下,StringBuilder效率更快,因为它不需要加锁,不具备多线程安全而Str...

2019-07-26 19:27:01 158

原创 在scala中使用break和continue的功能

在scala中是没有java中的break和continue这两个关键字的。但是有相应的函数来实现功能。break:import scala.util.control.Breaksobject BreakDemo { def main(args: Array[String]): Unit = { val arr:Array[Int] = Array(11,222,33,4...

2019-07-26 11:08:14 309

转载 eclipse 的简单使用

在eclipse中,用maven创建一个web项目工程1.在eclipse中用maven创建项目,右键new>>Maven Project2.点击next继续3.点击next继续,选择maven-archetype-webapp4.点击next继续,填写Group id和Artifact id, Version默认,Package可以不填5. ...

2019-07-25 15:02:18 174

转载 Redis的事务(一次执行多条命令,防止重读重写)

在关系型数据库中,事务是指一组命令的集合,这组命令构成了一个原子操作,这个操作要么全部执行成功,要么全部执行失败。而在非关系型数据库 Redis 中并非这样…Redis 中的事务同样也是一组命令的集合,这些命令会按序放入一个队列中,等待执行。与关系型数据库不同的是,Redis 允许这些命令部分执行成功。Redis 中常用的与事务相关的命令如下: multi:开启一个事务,类似 ...

2019-07-23 11:51:39 482

转载 分布式CAP定理,为什么不能同时满足三个特性?

在弄清楚这个问题之前,我们先了解一下什么是分布式的CAP定理。根据百度百科的定义,CAP定理又称CAP原则,指的是在一个分布式系统中,Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),最多只能同时三个特性中的两个,三者不可兼得。一、CAP的定义Consistency (一致性):“all nodes s...

2019-07-22 10:59:48 283

转载 大数据常见问题之数据倾斜

什么是数据倾斜简单的讲,数据倾斜就是我们在计算数据的时候,数据的分散度不够,导致大量的数据集中到了一台或者几台机器上计算,这些数据的计算速度远远低于平均计算速度,导致整个计算过程过慢。相信大部分做数据的童鞋们都会遇到数据倾斜,数据倾斜会发生在数据开发的各个环节中,比如:用Hive算数据的时候reduce阶段卡在99.99%用SparkStreaming做实时算法时候,...

2019-07-19 21:23:34 224

转载 Hive开发要知道数据仓库的四个层次设计

数据仓库:数据仓库全面接收源系统数据,ETL进程对数据进行规范化、验证、清洗,并最终装载进入数据集市,通过数据集市支持系统进行数据查询、分析,整个数据仓库包含四大层次。1.数据仓库的四个操作ETL(extractiontransformation loading)负责将分散的、异构数据源中的数据抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中。ETL 是实施数...

2019-07-18 21:54:59 1215

原创 mysql 练习

需求:首先先join获得笛卡儿积的列表:create table tmp_number asselect a.step as stepa,a.number as num1,b.step as stepb,b.number as num2from num_table a join num_table b思路:首先把rate和retained单独求出来,然后...

2019-07-18 21:32:51 79

原创 日志流量分析

ETL的实现ETL:Extract-Transform-Load,数据抽取-转换-加载过程。■目标:过滤无效数据,解析补全数据,格式化需求数据■无效数据:缺少访客id,会话id,订单id等关键属性的,针对不同事件有不同,的属性要求■解析补全数据:浏览器信息、操作系统信息、地域信息等■格式化数据:时间日期、客户端信息等■数据来源:存储在HDFS上的用户行为数据■数据存...

2019-07-17 22:01:18 552

原创 flume中三大高级组件

flume中3大高级组件官网:https://flume.apache.orgFlume Interceptors:拦截器,与Spring中拦截器是类似官方解释:功能:通过拦截器对每条数据进行过滤护着包装Timestamp Interceptor:时间拦截器在每一个event的头部添加一个KeyValuekey: timestampvalue:当前封装ev...

2019-07-16 22:30:06 944

转载 并发和并行的区别

并发(concurrency)和并行(parallellism)是:解释一:并行是指两个或者多个事件在同一时刻发生;而并发是指两个或多个事件在同一时间间隔发生。 解释二:并行是在不同实体上的多个事件,并发是在同一实体上的多个事件。 解释三:并行是在一台处理器上“同时”处理多个任务,并发是在多台处理器上同时处理多个任务。如 hadoop 分布式集群。所以并发编程的目标是充分的利用处理器的每...

2019-07-16 19:17:25 82

转载 什么是负载均衡/故障转移

集群系统中. 来自客户的请求可以进行平均分配. 把相应的进程分发给与之共同承担任务的服务器,从而不影响应用进程的运行, 大多数中间件都支持负载均衡,实现负载均衡大大降低了系统的崩溃现象,从而减少对企业带来的损失.故障转移:软硬件出现故障,能够有其它相关的软硬件设备来承接相关的工作任务,以保障系统正常工作。转自:https://blog.csdn.net/miachen520/artic...

2019-07-16 15:21:56 498

原创 Flume使用和特点

Flume使用和特点1)分布式:可以在多台机器上运行多个flume,日志文件往往分布在不同的机器里面(2) collecting, aggregating, and moving收集 聚集 移动(3)组件agentsource:从数据源读取数据的,将数据转换为数据流,将数据丢给channelchannel:类似于一个队列,临时存储source发送过来的数据sink:...

2019-07-15 22:47:50 1372

原创 linux 自动安装jdk脚本

#!/bin/sh#JDK源目录SOURCE_PATH=/opt/softwares/jdk-8u91-linux-x64.tar.gzTRAGET_PATH=/opt/modules/#解压tar -zxvf ${SOURCE_PATH} -C ${TRAGET_PATH}#修改权限chown -R huadian:huadian ${TRAGET_PATH}/jdk1.8.0...

2019-07-15 00:02:06 348

原创 Hive优化

Hive优化中间表业务分析处理中只涉及到少数字段,一号店的数据,计算PV,UV,一种36个字段,用到只有4个字段。shuffle优化hive的底层是MapReduce程序回顾MpaReduce shuffle过程2个阶段:map端的shuffle,reduce端的shuffle3个必选项:分区Partitioner决定MapTask输出的数据交给那个re...

2019-07-12 18:34:53 99

原创 sqoop 的数据导出

sqoop 的数据导出导出数据到mysql数据库中:1.在hive中创建数据库,创建表,加载数据。create database if not exists db_yhd;use db_yhd;模拟业务,创建分区表:CREATE TABLE db_yhd.track_log(id STRING,url STRIN...

2019-07-10 21:56:07 170

转载 hive数据仓库与MYSQL数据的区别

hive数据仓库与MYSQL数据的区别hive:属于大数据生态系统中一个技术框架、用于分析数据数据仓库ETL工具(ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程)建立在Hadoop之上,为用户提供SQL语句分析海量数据,离线数据分析底层MapReduc...

2019-07-09 22:23:09 489

原创 hive 分区表

hive创建表方式方式一:create table指定字段信息方式二:CTAS通过子查询创建表,将查询的数据存入另一张表。createtableas Select方式三:create like创建类似表create table new_table like old_table/view--数据数据库create database db_lianj...

2019-07-09 21:53:44 335

原创 hive UDF函数 实现时间格式转换

hive UDF函数 实现时间格式转换需求:自定义函数UDF - 数据格式 "27.38.5.159" "31/Aug/2015:00:04:37 +0800" ip: IP地址 datetime_str: 访问时间 - 两个UDF 去除 字段的双引号 转换日期时间格式 ...

2019-07-09 09:07:07 673

原创 Hive自定义函数

Hive自定义函数--查看支持的函数--show functions;--查看具体一个函数使用--desc function roundHive自定义函数需求:tongjivotetools字段的工具数量select ntools,count_tools_length(votetools) from tb_language_count;自...

2019-07-08 21:13:33 139

原创 hive SQL语句练习

hive SQL语句练习建数据库:建表:--部门create table tb_dept(deptno INT,dname STRING,loc STRING)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'LINES TERMINATED BY '\n';载入数据:LOAD DATA local INPA...

2019-07-08 00:01:57 351

原创 Hive功能介绍

Hive功能介绍hive是Apache的顶级项目,http://hive.apache.org/hive是干什么将SQL语句转换成MapReduce程序,并且提交到Yarn上运行,读取HDFS上的数据进行处理。SQL语句:和MySQL数据库中SQL语句非常非常类似。概念:SQLonHadoop建立在Hadoop之上提供SQL方式分析的框架-最早的框架就是...

2019-07-06 21:43:02 2250

转载 mySql中Truncate的用法

mySql中Truncate的用法当你不再需要该表时, 用 drop;当你仍要保留该表,但要删除所有记录时, 用 truncate;当你要删除部分记录时(always with a WHERE clause), 用 delete.Truncate是一个能够快速清空资料表内所有资料的SQL语法。并且能针对具有自动递增值的字段,做计数重置归零重新计算的作用。一、Truncate语法...

2019-07-06 19:37:21 1108

转载 设计MapReduce程序

设计MapReduce程序按照任务划分:只有map任务、map、reduce任务都有map and reduce数据ETL的过程map阶段:分片处理,将一个大任务拆分 -》数据过滤 -》数据补全比如:根据IP得到省市区信息 -》字段格式化对某个字段进行格式化时间: dd/MM/yyyy:HH:mmssti...

2019-07-05 21:59:06 803

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除