乔尼娜沙德星-CSDN博客

原创 spark知识整理

2019-08-12 22:44:31 178

原创 sparkStreaming 实时窗口分析

实时就是统计分析比如：饿了么中午和晚上，区域订单数目统计需求：最近半小时的各个区域订单状态11:0010：30~11:00 半小时时间内，订单状态，还有多少订单没有配送，多的话调人11:1010:40~11:00 半小时时间内，订单状态DStream窗口统计分析指定窗口的大小，也就是时间窗口时间间隔模拟数据：订单号 ...

2019-08-11 22:24:37 454

原创 kafka的安装及使用

Kafka介绍分布式消息队列（messageQueue）系统 topic:主题、类别分布定义的功能比喻：微信公众号发布者 -》推送文章关注公众号订阅1 订阅2官网http://kafka.apache.org/伪分布式的方式安装k...

2019-08-11 20:46:59 192

原创 SparkStreaming的介绍及处理数据流程

介绍：流式数据处理（streamprocessing）要处理的数据就像流水一样，源源不断的产生数据，需要实时进行处理对SparkCore的高级API的封装，将流式的数据切分为小的批次batch（按照时间间隔）的数据，然后使用SparkCore进行处理在大数据技术框架中，对于流式数据的实时数据分析处理方案：一条一条的处理来一条数据就处理一条数据 ...

2019-08-10 21:53:54 696

转载机器学习的种类及其典型的任务

1.监督学习（1）定义：指有求知欲的学生从老师那里获取知识、信息，老师提供对错指示、告知最终答案的学习过程。在机器学习中，计算机 = 学生，周围的环境 = 老师。（2）最终目标：根据在学习过程中获得的经验技能，对没学习过的问题也可以做出正确解答，使计算机获得这种泛化能力。（3）应用：手写文字识别、声音处理、图像处理、垃圾邮件分类与拦截、网页检索、基因诊断、股票预测等。（...

2019-08-09 21:58:37 1849

原创 Spark SQL UDF(日期转换)

// 利用SimpleDateFormat类 def getDayOfWeek = (date: String) => (new SimpleDateFormat("u")).format(new SimpleDateFormat("yyyy-MM-dd").parse(date)) val weekDays: Array[String] = Array("星期日"...

2019-08-08 23:20:21 1385

原创 sparksql 自定义schema

自定义schema信息case class StructType(fields: Array[StructField])case class StructField(name: String,dataType: DataType,nullable: Boolean = true,metadata: Metadata = Metadata...

2019-08-07 21:58:55 1439

原创 ETL日志数据到HBASE表中，程序代码优化点

（1）创建表的时候设置表的数据压缩 //设置数据压缩 family.setCompressionType(Compression.Algorithm.SNAPPY) 创建预分区 admin.createTable(desc,Array( Bytes.toBytes("145057118"),Bytes.toByt...

2019-08-06 21:44:17 259

原创 SparkCore（MapReduce）与HBase表（HFile）的数据进行交互

-1、写入数据将结果RDD保存到HBase表中 TableOutputFormat RDD的数据变成Key-value key:rowkey, ImmutableBytesWritable value:Put def saveAsNew...

2019-08-05 21:34:38 314

原创 spark standalone

介绍spark框架自身带的分布式集群资源管理和任务调度框架，类似于HadoopYarn框架 Standalone Yarn Master ResourceManager ...

2019-08-02 21:51:11 165

转载数组和集合的区别

数组和集合的定义一、数组数组是java语言内置的数据类型，他是一个线性的序列，所有可以快速访问其他的元素，数组和其他语言不同，当你创建了一个数组时，他的容量是不变的，而且在生命周期也是不能改变的，还有JAVA数组会做边界检查，如果发现有越界现象，会报RuntimeException异常错误，当然检查边界会以效率为代价。二、集合JAVA还提供其他集合，list，map，s...

2019-08-02 15:31:45 227

原创 HBase 的使用和使用

导入数据的方式创建表以后，我们需要向表中批量的插入数据 -1.可以调用JavaAPI Put(单条，多条) -2.使用Mapreduce （1）SQOOP工具，将RDBMS中的数据导入（2）使用自带MapReduce程序（3）自己编写MapReduce思考 ...

2019-07-31 22:38:31 276

原创 HBase Java API

Hadoop兼容性问题解决在本机中配置环境变量配置完后需要重启电脑RegionServer内存分布 -1.用户读取数据的缓存，有时候在一段时间内反复查询数据，系统meta表的数据应全部放到内存中 -2.用于写的缓存，memStore的使用如果HBase集群，如果写的要求不高，就慢慢写，那么memstore的值可以设置小一些衍生...

2019-07-30 22:01:49 104

原创 HBase 表的使用和数据导入

HBase表中检索数据的方式方式一：全部扫描 scan方式二:单条获取 ---速度最快的 getrowkey方式三:范围查询 ---使用最多 scan 设置查询范围条件rowkey 存储是按照rowkey排序的系统表介绍meta存储着所有用户表的region信息只有一个regionCli...

2019-07-29 21:08:34 212

原创 scala中的 OOP（面向对象编程）

-1.class类和Java中类是一样的-2.Object对象类比和Java单例对象 main方法运行在此处-3.trait 类比 Java中接口Interface隐式转换implicit implicit 隐式的，隐藏的偷偷摸摸关键词：修饰class，修饰def,修饰变量，...

2019-07-28 21:00:24 254

转载抽象类与接口的区别

抽象类接口方法默认实现支持不支持，接口完全是抽象的实现子类使用extends关键字来继承抽象类。子类如果不是抽象类，需要实现抽象类中声明的所有抽象方法子类使用关键字implements来实现接口，需要实...

2019-07-27 17:47:43 86

转载 StringBuffer与StringBuilder的区别，及实现原理

区别1、StringBuffer 与 StringBuilder 中的方法和功能完全是等价的，2、只是StringBuffer 中的方法大都采用了synchronized关键字进行修饰，因此是线程安全的，而 StringBuilder 没有这个修饰，可以被认为是线程不安全的。3、在单线程程序下，StringBuilder效率更快，因为它不需要加锁，不具备多线程安全而Str...

2019-07-26 19:27:01 163

原创在scala中使用break和continue的功能

在scala中是没有java中的break和continue这两个关键字的。但是有相应的函数来实现功能。break：import scala.util.control.Breaksobject BreakDemo { def main(args: Array[String]): Unit = { val arr:Array[Int] = Array(11,222,33,4...

2019-07-26 11:08:14 322

转载 eclipse 的简单使用

在eclipse中，用maven创建一个web项目工程1.在eclipse中用maven创建项目，右键new>>Maven Project2.点击next继续3.点击next继续，选择maven-archetype-webapp4.点击next继续，填写Group id和Artifact id， Version默认，Package可以不填5. ...

2019-07-25 15:02:18 181

转载 Redis的事务（一次执行多条命令，防止重读重写）

在关系型数据库中，事务是指一组命令的集合，这组命令构成了一个原子操作，这个操作要么全部执行成功，要么全部执行失败。而在非关系型数据库 Redis 中并非这样…Redis 中的事务同样也是一组命令的集合，这些命令会按序放入一个队列中，等待执行。与关系型数据库不同的是，Redis 允许这些命令部分执行成功。Redis 中常用的与事务相关的命令如下： multi：开启一个事务，类似 ...

2019-07-23 11:51:39 490

转载分布式CAP定理，为什么不能同时满足三个特性？

在弄清楚这个问题之前，我们先了解一下什么是分布式的CAP定理。根据百度百科的定义，CAP定理又称CAP原则，指的是在一个分布式系统中，Consistency（一致性）、 Availability（可用性）、Partition tolerance（分区容错性），最多只能同时三个特性中的两个，三者不可兼得。一、CAP的定义Consistency (一致性)：“all nodes s...

2019-07-22 10:59:48 284

转载大数据常见问题之数据倾斜

什么是数据倾斜简单的讲，数据倾斜就是我们在计算数据的时候，数据的分散度不够，导致大量的数据集中到了一台或者几台机器上计算，这些数据的计算速度远远低于平均计算速度，导致整个计算过程过慢。相信大部分做数据的童鞋们都会遇到数据倾斜，数据倾斜会发生在数据开发的各个环节中，比如：用Hive算数据的时候reduce阶段卡在99.99%用SparkStreaming做实时算法时候，...

2019-07-19 21:23:34 227

转载 Hive开发要知道数据仓库的四个层次设计

数据仓库：数据仓库全面接收源系统数据，ETL进程对数据进行规范化、验证、清洗，并最终装载进入数据集市，通过数据集市支持系统进行数据查询、分析，整个数据仓库包含四大层次。1.数据仓库的四个操作ETL(extractiontransformation loading)负责将分散的、异构数据源中的数据抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中。ETL 是实施数...

2019-07-18 21:54:59 1226

原创 mysql 练习

需求：首先先join获得笛卡儿积的列表：create table tmp_number asselect a.step as stepa,a.number as num1,b.step as stepb,b.number as num2from num_table a join num_table b思路:首先把rate和retained单独求出来，然后...

2019-07-18 21:32:51 80

原创日志流量分析

ETL的实现ETL：Extract-Transform-Load,数据抽取-转换-加载过程。■目标:过滤无效数据，解析补全数据，格式化需求数据■无效数据:缺少访客id,会话id,订单id等关键属性的，针对不同事件有不同,的属性要求■解析补全数据:浏览器信息、操作系统信息、地域信息等■格式化数据:时间日期、客户端信息等■数据来源:存储在HDFS上的用户行为数据■数据存...

2019-07-17 22:01:18 567

原创 flume中三大高级组件

flume中3大高级组件官网：https://flume.apache.orgFlume Interceptors：拦截器，与Spring中拦截器是类似官方解释：功能：通过拦截器对每条数据进行过滤护着包装Timestamp Interceptor：时间拦截器在每一个event的头部添加一个KeyValuekey: timestampvalue:当前封装ev...

2019-07-16 22:30:06 953

转载并发和并行的区别

并发（concurrency）和并行（parallellism）是：解释一：并行是指两个或者多个事件在同一时刻发生；而并发是指两个或多个事件在同一时间间隔发生。解释二：并行是在不同实体上的多个事件，并发是在同一实体上的多个事件。解释三：并行是在一台处理器上“同时”处理多个任务，并发是在多台处理器上同时处理多个任务。如 hadoop 分布式集群。所以并发编程的目标是充分的利用处理器的每...

2019-07-16 19:17:25 84

转载什么是负载均衡/故障转移

集群系统中. 来自客户的请求可以进行平均分配. 把相应的进程分发给与之共同承担任务的服务器，从而不影响应用进程的运行, 大多数中间件都支持负载均衡，实现负载均衡大大降低了系统的崩溃现象，从而减少对企业带来的损失.故障转移：软硬件出现故障，能够有其它相关的软硬件设备来承接相关的工作任务，以保障系统正常工作。转自：https://blog.csdn.net/miachen520/artic...

2019-07-16 15:21:56 502

原创 Flume使用和特点

Flume使用和特点1）分布式：可以在多台机器上运行多个flume,日志文件往往分布在不同的机器里面(2) collecting, aggregating, and moving收集聚集移动（3）组件agentsource:从数据源读取数据的，将数据转换为数据流，将数据丢给channelchannel：类似于一个队列，临时存储source发送过来的数据sink：...

2019-07-15 22:47:50 1387

原创 linux 自动安装jdk脚本

#!/bin/sh#JDK源目录SOURCE_PATH=/opt/softwares/jdk-8u91-linux-x64.tar.gzTRAGET_PATH=/opt/modules/#解压tar -zxvf ${SOURCE_PATH} -C ${TRAGET_PATH}#修改权限chown -R huadian:huadian ${TRAGET_PATH}/jdk1.8.0...

2019-07-15 00:02:06 353

原创 Hive优化

Hive优化中间表业务分析处理中只涉及到少数字段，一号店的数据，计算PV，UV,一种36个字段，用到只有4个字段。shuffle优化hive的底层是MapReduce程序回顾MpaReduce shuffle过程2个阶段：map端的shuffle，reduce端的shuffle3个必选项：分区Partitioner决定MapTask输出的数据交给那个re...

2019-07-12 18:34:53 115

原创 sqoop 的数据导出

sqoop 的数据导出导出数据到mysql数据库中：1.在hive中创建数据库，创建表，加载数据。create database if not exists db_yhd;use db_yhd;模拟业务，创建分区表：CREATE TABLE db_yhd.track_log(id STRING,url STRIN...

2019-07-10 21:56:07 182

转载 hive数据仓库与MYSQL数据的区别

hive数据仓库与MYSQL数据的区别hive:属于大数据生态系统中一个技术框架、用于分析数据数据仓库ETL工具（ETL，是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过萃取（extract）、转置（transform）、加载（load）至目的端的过程）建立在Hadoop之上，为用户提供SQL语句分析海量数据，离线数据分析底层MapReduc...

2019-07-09 22:23:09 505

原创 hive 分区表

hive创建表方式方式一：create table指定字段信息方式二：CTAS通过子查询创建表，将查询的数据存入另一张表。createtableas Select方式三：create like创建类似表create table new_table like old_table/view--数据数据库create database db_lianj...

2019-07-09 21:53:44 390

原创 hive UDF函数实现时间格式转换

hive UDF函数实现时间格式转换需求：自定义函数UDF - 数据格式 "27.38.5.159" "31/Aug/2015:00:04:37 +0800" ip: IP地址 datetime_str: 访问时间 - 两个UDF 去除字段的双引号转换日期时间格式 ...

2019-07-09 09:07:07 690

原创 Hive自定义函数

Hive自定义函数--查看支持的函数--show functions;--查看具体一个函数使用--desc function roundHive自定义函数需求：tongjivotetools字段的工具数量select ntools,count_tools_length(votetools) from tb_language_count;自...

2019-07-08 21:13:33 144

原创 hive SQL语句练习

hive SQL语句练习建数据库：建表：--部门create table tb_dept(deptno INT,dname STRING,loc STRING)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'LINES TERMINATED BY '\n';载入数据：LOAD DATA local INPA...

2019-07-08 00:01:57 370

原创 Hive功能介绍

Hive功能介绍hive是Apache的顶级项目，http://hive.apache.org/hive是干什么将SQL语句转换成MapReduce程序，并且提交到Yarn上运行，读取HDFS上的数据进行处理。SQL语句：和MySQL数据库中SQL语句非常非常类似。概念：SQLonHadoop建立在Hadoop之上提供SQL方式分析的框架-最早的框架就是...

2019-07-06 21:43:02 2292

转载 mySql中Truncate的用法

mySql中Truncate的用法当你不再需要该表时，用 drop；当你仍要保留该表，但要删除所有记录时，用 truncate；当你要删除部分记录时（always with a WHERE clause), 用 delete.Truncate是一个能够快速清空资料表内所有资料的SQL语法。并且能针对具有自动递增值的字段，做计数重置归零重新计算的作用。一、Truncate语法...

2019-07-06 19:37:21 1142

转载设计MapReduce程序

设计MapReduce程序按照任务划分：只有map任务、map、reduce任务都有map and reduce数据ETL的过程map阶段:分片处理，将一个大任务拆分 -》数据过滤 -》数据补全比如：根据IP得到省市区信息 -》字段格式化对某个字段进行格式化时间： dd/MM/yyyy:HH:mmssti...

2019-07-05 21:59:06 822

空空如也

空空如也