2019年07月_婲落ヽ紅顏誶

12月 11月 10月 08月 07月

原创面试

四种线程池Java通过Executors提供四种线程池，分别为：1,newCachedThreadPoo创建一个可缓存线程池，如果线程池长度超过处理需要，可灵活回收空闲线程，若无可回收，则新建线程。2,newFixedThreadPool创建一个定长线程池，可控制线程最大并发数，超出的线程会在队列中等待。3,newScheduledThreadPool创建一个定长线程池，支持定时及...

2019-07-29 20:08:35 123

转载 Hadoop

一、大数据（Big Data）引言1.什么是大数据体量很大的数据，起步存储当量为TB级或者日均数据增长GB级。在海量数据下，可以进行分析，挖掘，进而发现数据内在的规律，从而为企业或者国家创造价值。2.大数据的特点（4v特性）（1） Volume:体量大（2）Variety:样式多数据种类多1.1 结构化数据1.2.半结构化数据：json、xml1.3.非结构化数据：图片、音频...

2019-07-28 09:25:14 370

转载 SpringCloud

Spring Cloud为何要学习Spring Cloud单一应用架构：主要解决ORM 数据库访问层。垂直应用架构：解决分层问题，实现应用的分层开发，提升开发效率。分布式应用架构：解决系统间调用问题，引发了SOA（面向服务开发）架构新潮。SOA治理（Macro Service治理）：对面向服务开发和治理同时提出新的挑战，要求应用能够做到容易部署、智能路由、服务负载均衡、熔断等要求，...

2019-07-26 17:10:50 216

原创 git

Git笔记Wechat：gzy2001一、版本控制系统概述版本控制系统（VCS）：是一种记录一个或若干文件内容变化，以便将来查阅特定版本修订情况的系统，好处：备份、历史记录、记录恢复、多端共享、协同开发等。企业中主流的版本控制系统：集中式版本控制系统（CVCS），如：SVN分布式版本控制系统（DVCS），如：GitGit的前世今生Linus Torvalds 19...

2019-07-26 09:14:53 297

1.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。2.应尽量避免在 where 子句中对字段进行 null 值判断，否则将导致引擎放弃使用索引而进行全表扫描，如：select id from t where num is null可以在num上设置默认值0，确保表中num列没有null值，然后这样查询：select id from t w...

2019-07-25 09:01:20 113

转载 MapReduce调优总结

一、调优的目的充分的利用机器的性能，更快的完成mr程序的计算任务。甚至是在有限的机器条件下，能够支持运行足够多的mr程序。二、调优的总体概述从mr程序的内部运行机制，我们可以了解到一个mr程序由mapper和reducer两个阶段组成，其中mapper阶段包括：(1)数据的读取、(2)map处理以及写出操作(排序和合并/sort&merge)，而reducer阶段包含：(1...

2019-07-25 08:48:46 403

转载 Spark性能优化-数据倾斜调优

文章目录1 前言2 数据倾斜调优2.1 调优概述2.2 数据倾斜发生时的现象2.3 数据倾斜发生的原理2.4 如何定位导致数据倾斜的代码2.4.1 某个task执行特别慢的情况2.4.2 某个task莫名其妙内存溢出的情况2.5 查看导致数据倾斜的key的数据分布情况2.6 数据倾斜的解决方案2.6.1 解决方案一：使用Hive ETL预处理数据2.6.2 解决方案二：过滤...

2019-07-24 22:09:57 141

转载 spark性能调优-资源调优

在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集群资源，作业运行会极其缓慢；或者设置的资源过大，队列没有足够的资源来提供，进而导致各种异常。总之，无论是哪...

2019-07-24 21:55:20 118

转载 sqoop常用命令

sqoop-import 注意点 import 可能会用到的参数：Argument Described --append Append data to an existing dataset in HDFS--as-sequencefile import序列化的文件 --as-textfile import plain文件，默认 --columns <col,col,...

2019-07-24 21:25:32 194

原创 sqoop使用注意事项

**概念：**Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。使用注意事项：尽管有以上的优点，在使用Sqoop的时候还有一些事情需要注意。首先，对于默认的并行机制要小心。默认情况下的并行意味着Sqoop假...

2019-07-24 21:15:17 676

原创大数据Hive中数据倾斜问题

介绍在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。Hive的执行是分阶段的，map处理数据量的差异取决于上一个stage的reduce输出，所以如何将数据...

2019-07-24 20:36:50 328

原创项目案例

用户登录行为风控系统背景技术近年来，伴随着互联网金融的风生水起；国家出台相关文件，要求加大互联网交易风险防控力度；鼓励通过大数据分析、用户行为建模等手段建立和完善交易风险检测模型。但是目前大数据风控还存在有效性差，准确性不高等问题。基于用户登录行为分析的风控方法，通过多特征多模型融合，多数据的智能处理方法能提高风险预测准确性，更符合信息发展时代风控业务的发展需求。技术实现要素解决的技术问题...

2019-07-22 09:12:47 252

原创 websocket

package com.baizhi;import com.baizhi.redis.RedisReceiver;import org.springframework.context.annotation.Bean;import org.springframework.context.annotation.Configuration;import org.springframework....

2019-07-19 09:11:25 124

转载 FastDFS 分布式文件系统

文件系统概述分布式文件系统（Distributed File System）是指文件系统管理的物理存储资源不一定直接连接在本地节点上，而是通过计算机网络与节点相连。计算机通过文件系统管理、存储数据，而信息爆炸时代中人们可以获取的数据成指数倍的增长，单纯通过增加硬盘个数来扩展计算机文件系统的存储容量的方式，在容量大小、容量增长速度、数据备份、数据安全等方面的表现都差强人意。分布式文件系统可以有效...

2019-07-19 08:34:25 373

原创 mysql小技巧

插入数据并返回为实体类中主键赋值方法一：<insert id="saveUser" parameterType="User"> <selectKey keyColumn="id" resultType="int" keyProperty="id" order="AFTER" > select last_insert_id() </selec...

2019-07-12 18:48:33 135

转载 springboot的restful及restTemplate测试

实战代码（controller）package com.baizhi.controller;import com.baizhi.entities.User;import com.baizhi.service.UserService;import org.springframework.beans.factory.annotation.Autowired;import org.spring...

2019-07-12 09:08:23 544

原创全局异常处理

处理方式一：public class MyException extends RuntimeException { private ErrorCodeEnum errorCode; public MyException(ErrorCodeEnum errorCode) { this.errorCode = errorCode; } public...

2019-07-12 08:59:12 129

原创 ElasticSearch

ElasticSearch1. 什么是RestFulREST : 表现层状态转化(Representational State Transfer)，如果一个架构符合REST原则，就称它为 RESTful 架构风格。资源: 所谓"资源"，就是网络上的一个实体，或者说是网络上的一个具体信息表现层 :我们把"资源"具体呈现出来的形式，叫做它的"表现层"(Representation)。状态转...

2019-07-10 21:15:24 222

转载 springboot

Springboot1.springboot的引言Spring Boot是由Pivotal团队提供的全新框架，其设计目的是用来简化新Spring应用的初始搭建以及开发过程。该框架使用了特定的方式来进行配置，从而使开发人员不再需要定义样板化的配置。通过这种方式，Spring Boot致力于在蓬勃发展的快速应用开发领域(rapid application development)成为领导者。s...

2019-07-10 21:12:51 404

转载 flume简单使用

Flume分布式日志采集介绍Flume是一种分布式，可靠且可用的服务，用于有效地收集，聚合和移动大量日志数据。Flume构建在日志流之上一个简单灵活的架构。它具有可靠的可靠性机制和许多故障转移和恢复机制，具有强大的容错性。使用Flume这套架构实现对日志流数据的实时在线分析。Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方...

2019-07-10 20:34:22 228 1

转载 spark集群环境构建及java访问

Load & save 函数MySQL集成(引入MysQL驱动jar)<dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.47</versi...

2019-07-09 22:56:34 379

原创 linux上安装mysql

linux mysqlyum -y install mysql-server启动mysql服务并设置管理员密码service mysqld start/usr/bin/mysqladmin -u root password ‘123456’登录 mysql -u root -p123456mysql修改密码（1） mysqladmin -u root -p passwo...

2019-07-09 22:53:06 92

转载 sparkSQL

Spark SQLSpark SQL是用于结构化数据处理的一个模块。同Spark RDD 不同地方在于Spark SQL的API可以给Spark计算引擎提供更多地信息，例如：数据结构、计算算子等。在内部Spark可以通过这些信息有针对对任务做优化和调整。这里有几种方式和Spark SQL进行交互，例如Dataset API和SQL等，这两种API可以混合使用。Spark SQL的一个用途是执行S...

2019-07-07 11:13:06 183

转载 sparkStreaming

Spark Streaming(流处理)什么是流处理？一般流式计算会与批量计算相比较。在流式计算模型中，输入是持续的，可以认为在时间上是无界的，也就意味着，永远拿不到全量数据去做计算。同时，计算结果是持续输出的，也即计算结果在时间上也是无界的。流式计算一般对实时性要求较高，同时一般是先定义目标计算，然后数据到来之后将计算逻辑应用于数据。同时为了提高计算效率，往往尽可能采用增量计算代替全量计算。...

2019-07-05 09:35:04 176

转载 sparkRDD

- Apache Spark背景介绍Spark是一个快如闪电的统一分析引擎（计算框架）用于大规模数据集的处理。Spark在做数据的批处理计算，计算性能大约是Hadoop MapReduce的10~100倍，因为Spark使用比较先进的基于DAG 任务调度，可以将一个任务拆分成若干个阶段，然后将这些阶段分批次交给集群计算节点处理。MapReduce VS SparkMapReduce作为第一...

2019-07-05 09:31:45 307

转载 kafka Streaming

Kafka Streams流计算定义一般流式计算会与批量计算相比较。在流式计算模型中，输入是持续的，可以认为在时间上是无界的，也就意味着，永远拿不到全量数据去做计算。同时，计算结果是持续输出的，也即计算结果在时间上也是无界的。流式计算一般对实时性要求较高，同时一般是先定义目标计算，然后数据到来之后将计算逻辑应用于数据。同时为了提高计算效率，往往尽可能采用增量计算代替全量计算。批量处理模型中，一...

2019-07-03 20:11:40 2720

转载 storm

Apache StormStorm是什么？Storm是免费开源的分布式实时计算系统，改系统在2.0.0之前改架构核心实现使用Clojure编程实现，在本次版本以后Storm底层实现做了重大的调整使用Java8重构了Storm。Storm是一个实时的流处理引擎，能实现对记录的亚秒级的延迟处理。Storm在 realtime analytics、online machine learning、co...

2019-07-03 20:11:31 244

转载 stormTrident

Storm TridentTrident是一个高级抽象，用于在Storm之上进行实时计算。它允许您无缝混合高吞吐量（每秒数百万条消息），有状态流处理和低延迟分布式查询。如果您熟悉Pig或Cascading等高级批处理工具，Trident的概念将非常熟悉 - Trident具有连接，聚合，分组，功能和过滤器。除此之外，Trident还添加了基元，用于在任何数据库或持久性存储之上执行有状态的增量处理...

2019-07-03 20:11:19 278

转载 storm streaming 2.0新特性

Stream APIStream API是Storm的另一种替代接口。它提供了一种用于表达流式计算的类型化API，并支持功能样式操作。快速入门StreamBuilder builder = new StreamBuilder();KafkaSpout<String, String> spout = KafkaSpoutUtils.buildKafkaSpout("CentOS...

2019-07-03 20:11:10 254

转载 scala

Scala Programing Language什么是Scala？专门为计算而生的语言，Scala将(Java后者C++)面向对象设计和函数式编程结合在一起的简洁的高级编程语言。而函数式编程强调的是通过传递算子（代码|函数）实现大规模数据集的本地计算。Scala虽然是一门独立的编程语言，但是它可以无缝和Java语言对接。Scala编译的代码可以直接运行在JVM之上。Spark 和 Scala...

2019-07-03 20:11:00 357

转载 hadoop配置大全（hadoop集群，hive，sqoop，ntp集群，hbase集群）

HadoopHadoop伪分布式基本环境搭建0. Vmware中网卡桥接(bridge),NAT 桥接：宿主机，虚拟机在网络上，等同的，相互都具有独立的ip地址 NAT模式:宿主机（192.168.0.3）虚拟机（192.168.0.3）宿主机可以与虚拟机构建一个虚拟的网络便于实验测试虚拟的IP地址1. if...

2019-07-03 20:10:45 465

转载 kafka mq

作者：jiangzz 电话：15652034180 微信：jiangzz_wx 微信公众账号：jiangzz_wyApache Kafka 消息队列消息队列消息：系统间通信介质，存在形式多样化一般使用字节序列化、Json、xml等队列：先进先出 FIFO 数据结构消息队列(Message Queue)：可以用于系统间通讯的一个组件-middle ware（中间件），该组件可以用于做消息...

2019-07-03 20:09:33 607