- 博客(32)
- 资源 (7)
- 收藏
- 关注
原创 面试
四种线程池Java通过Executors提供四种线程池,分别为:1,newCachedThreadPoo创建一个可缓存线程池,如果线程池长度超过处理需要,可灵活回收空闲线程,若无可回收,则新建线程。2,newFixedThreadPool创建一个定长线程池,可控制线程最大并发数,超出的线程会在队列中等待。3,newScheduledThreadPool创建一个定长线程池,支持定时及...
2019-07-29 20:08:35 123
转载 Hadoop
一、大数据(Big Data)引言1.什么是大数据体量很大的数据,起步存储当量为TB级或者日均数据增长GB级。在海量数据下,可以进行分析,挖掘,进而发现数据内在的规律,从而为企业或者国家创造价值。2.大数据的特点(4v特性)(1) Volume:体量大(2)Variety:样式多 数据种类多1.1 结构化数据1.2.半结构化数据:json、xml1.3.非结构化数据:图片、音频...
2019-07-28 09:25:14 370
转载 SpringCloud
Spring Cloud为何要学习Spring Cloud单一应用架构 :主要解决ORM 数据库访问层。垂直应用架构 : 解决分层问题,实现应用的分层开发,提升开发效率。分布式应用架构:解决系统间调用问题,引发了SOA(面向服务开发)架构新潮。SOA治理(Macro Service治理):对面向服务开发和治理同时提出新的挑战,要求应用能够做到容易部署、智能路由、服务负载均衡、熔断等要求,...
2019-07-26 17:10:50 216
原创 git
Git笔记Wechat:gzy2001一、版本控制系统概述版本控制系统(VCS):是一种记录一个或若干文件内容变化,以便将来查阅特定版本修订情况的系统,好处:备份、历史记录、记录恢复、多端共享、协同开发等。企业中主流的版本控制系统:集中式版本控制系统(CVCS),如:SVN分布式版本控制系统(DVCS),如:GitGit的前世今生Linus Torvalds 19...
2019-07-26 09:14:53 297
原创 SQL优化
1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如:select id from t where num is null可以在num上设置默认值0,确保表中num列没有null值,然后这样查询:select id from t w...
2019-07-25 09:01:20 113
转载 MapReduce调优总结
一、调优的目的充分的利用机器的性能,更快的完成mr程序的计算任务。甚至是在有限的机器条件下,能够支持运行足够多的mr程序。二、调优的总体概述从mr程序的内部运行机制,我们可以了解到一个mr程序由mapper和reducer两个阶段组成,其中mapper阶段包括:(1)数据的读取、(2)map处理以及写出操作(排序和合并/sort&merge),而reducer阶段包含:(1...
2019-07-25 08:48:46 403
转载 Spark性能优化-数据倾斜调优
文章目录1 前言2 数据倾斜调优2.1 调优概述2.2 数据倾斜发生时的现象2.3 数据倾斜发生的原理2.4 如何定位导致数据倾斜的代码2.4.1 某个task执行特别慢的情况2.4.2 某个task莫名其妙内存溢出的情况2.5 查看导致数据倾斜的key的数据分布情况2.6 数据倾斜的解决方案2.6.1 解决方案一:使用Hive ETL预处理数据2.6.2 解决方案二:过滤...
2019-07-24 22:09:57 141
转载 spark性能调优-资源调优
在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总之,无论是哪...
2019-07-24 21:55:20 118
转载 sqoop常用命令
sqoop-import 注意点 import 可能会用到的参数:Argument Described --append Append data to an existing dataset in HDFS--as-sequencefile import序列化的文件 --as-textfile import plain文件 ,默认 --columns <col,col,...
2019-07-24 21:25:32 194
原创 sqoop使用注意事项
**概念:**Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。使用注意事项:尽管有以上的优点,在使用Sqoop的时候还有一些事情需要注意。首先,对于默认的并行机制要小心。默认情况下的并行意味着Sqoop假...
2019-07-24 21:15:17 676
原创 大数据Hive中数据倾斜问题
介绍在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据...
2019-07-24 20:36:50 328
原创 项目案例
用户登录行为风控系统背景技术近年来,伴随着互联网金融的风生水起;国家出台相关文件,要求加大互联网交易风险防控力度;鼓励通过大数据分析、用户行为建模等手段建立和完善交易风险检测模型。但是目前大数据风控还存在有效性差,准确性不高等问题。基于用户登录行为分析的风控方法,通过多特征多模型融合,多数据的智能处理方法能提高风险预测准确性,更符合信息发展时代风控业务的发展需求。技术实现要素解决的技术问题...
2019-07-22 09:12:47 252
原创 websocket
package com.baizhi;import com.baizhi.redis.RedisReceiver;import org.springframework.context.annotation.Bean;import org.springframework.context.annotation.Configuration;import org.springframework....
2019-07-19 09:11:25 124
转载 FastDFS 分布式文件系统
文件系统概述分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。计算机通过文件系统管理、存储数据,而信息爆炸时代中人们可以获取的数据成指数倍的增长,单纯通过增加硬盘个数来扩展计算机文件系统的存储容量的方式,在容量大小、容量增长速度、数据备份、数据安全等方面的表现都差强人意。分布式文件系统可以有效...
2019-07-19 08:34:25 373
原创 mysql小技巧
插入数据并返回为实体类中主键赋值 方法一:<insert id="saveUser" parameterType="User"> <selectKey keyColumn="id" resultType="int" keyProperty="id" order="AFTER" > select last_insert_id() </selec...
2019-07-12 18:48:33 135
转载 springboot的restful及restTemplate测试
实战代码(controller)package com.baizhi.controller;import com.baizhi.entities.User;import com.baizhi.service.UserService;import org.springframework.beans.factory.annotation.Autowired;import org.spring...
2019-07-12 09:08:23 544
原创 全局异常处理
处理方式一:public class MyException extends RuntimeException { private ErrorCodeEnum errorCode; public MyException(ErrorCodeEnum errorCode) { this.errorCode = errorCode; } public...
2019-07-12 08:59:12 129
原创 ElasticSearch
ElasticSearch1. 什么是RestFulREST : 表现层状态转化(Representational State Transfer),如果一个架构符合REST原则,就称它为 RESTful 架构风格。资源: 所谓"资源",就是网络上的一个实体,或者说是网络上的一个具体信息表现层 :我们把"资源"具体呈现出来的形式,叫做它的"表现层"(Representation)。状态转...
2019-07-10 21:15:24 222
转载 springboot
Springboot1.springboot的引言Spring Boot是由Pivotal团队提供的全新框架,其设计目的是用来简化新Spring应用的初始搭建以及开发过程。该框架使用了特定的方式来进行配置,从而使开发人员不再需要定义样板化的配置。通过这种方式,Spring Boot致力于在蓬勃发展的快速应用开发领域(rapid application development)成为领导者。s...
2019-07-10 21:12:51 404
转载 flume简单使用
Flume分布式日志采集介绍Flume是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日志数据。Flume构建在日志流之上一个简单灵活的架构。它具有可靠的可靠性机制和许多故障转移和恢复机制,具有强大的容错性。使用Flume这套架构实现对日志流数据的实时在线分析。Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方...
2019-07-10 20:34:22 228 1
转载 spark集群环境构建及java访问
Load & save 函数MySQL集成(引入MysQL驱动jar)<dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.47</versi...
2019-07-09 22:56:34 379
原创 linux上安装mysql
linux mysqlyum -y install mysql-server启动mysql服务并设置管理员密码service mysqld start/usr/bin/mysqladmin -u root password ‘123456’登录 mysql -u root -p123456mysql修改密码(1) mysqladmin -u root -p passwo...
2019-07-09 22:53:06 92
转载 sparkSQL
Spark SQLSpark SQL是用于结构化数据处理的一个模块。同Spark RDD 不同地方在于Spark SQL的API可以给Spark计算引擎提供更多地信息,例如:数据结构、计算算子等。在内部Spark可以通过这些信息有针对对任务做优化和调整。这里有几种方式和Spark SQL进行交互,例如Dataset API和SQL等,这两种API可以混合使用。Spark SQL的一个用途是执行S...
2019-07-07 11:13:06 183
转载 sparkStreaming
Spark Streaming(流处理)什么是流处理?一般流式计算会与批量计算相比较。在流式计算模型中,输入是持续的,可以认为在时间上是无界的,也就意味着,永远拿不到全量数据去做计算。同时,计算结果是持续输出的,也即计算结果在时间上也是无界的。流式计算一般对实时性要求较高,同时一般是先定义目标计算,然后数据到来之后将计算逻辑应用于数据。同时为了提高计算效率,往往尽可能采用增量计算代替全量计算。...
2019-07-05 09:35:04 176
转载 sparkRDD
- Apache Spark背景介绍Spark是一个快如闪电的统一分析引擎(计算框架)用于大规模数据集的处理。Spark在做数据的批处理计算,计算性能大约是Hadoop MapReduce的10~100倍,因为Spark使用比较先进的基于DAG 任务调度,可以将一个任务拆分成若干个阶段,然后将这些阶段分批次交给集群计算节点处理。MapReduce VS SparkMapReduce作为第一...
2019-07-05 09:31:45 307
转载 kafka Streaming
Kafka Streams流计算定义一般流式计算会与批量计算相比较。在流式计算模型中,输入是持续的,可以认为在时间上是无界的,也就意味着,永远拿不到全量数据去做计算。同时,计算结果是持续输出的,也即计算结果在时间上也是无界的。流式计算一般对实时性要求较高,同时一般是先定义目标计算,然后数据到来之后将计算逻辑应用于数据。同时为了提高计算效率,往往尽可能采用增量计算代替全量计算。批量处理模型中,一...
2019-07-03 20:11:40 2720
转载 storm
Apache StormStorm是什么?Storm是免费开源的分布式实时计算系统,改系统在2.0.0之前改架构核心实现使用Clojure编程实现,在本次版本以后Storm底层实现做了重大的调整使用Java8重构了Storm。Storm是一个实时的流处理引擎,能实现对记录的亚秒级的延迟处理。Storm在 realtime analytics、online machine learning、co...
2019-07-03 20:11:31 244
转载 stormTrident
Storm TridentTrident是一个高级抽象,用于在Storm之上进行实时计算。它允许您无缝混合高吞吐量(每秒数百万条消息),有状态流处理和低延迟分布式查询。如果您熟悉Pig或Cascading等高级批处理工具,Trident的概念将非常熟悉 - Trident具有连接,聚合,分组,功能和过滤器。除此之外,Trident还添加了基元,用于在任何数据库或持久性存储之上执行有状态的增量处理...
2019-07-03 20:11:19 278
转载 storm streaming 2.0新特性
Stream APIStream API是Storm的另一种替代接口。它提供了一种用于表达流式计算的类型化API,并支持功能样式操作。快速入门StreamBuilder builder = new StreamBuilder();KafkaSpout<String, String> spout = KafkaSpoutUtils.buildKafkaSpout("CentOS...
2019-07-03 20:11:10 254
转载 scala
Scala Programing Language什么是Scala?专门为计算而生的语言,Scala将(Java后者C++)面向对象设计和函数式编程结合在一起的简洁的高级编程语言。而函数式编程强调的是通过传递算子(代码|函数)实现大规模数据集的本地计算。Scala虽然是一门独立的编程语言,但是它可以无缝和Java语言对接。Scala编译的代码可以直接运行在JVM之上。Spark 和 Scala...
2019-07-03 20:11:00 357
转载 hadoop配置大全(hadoop集群,hive,sqoop,ntp集群,hbase集群)
HadoopHadoop伪分布式基本环境搭建0. Vmware中网卡 桥接(bridge),NAT 桥接:宿主机 ,虚拟机 在网络上 ,等同的 ,相互都具有独立的ip地址 NAT模式:宿主机(192.168.0.3)虚拟机 (192.168.0.3) 宿主机 可以与 虚拟机 构建一个 虚拟的网络 便于实验 测试 虚拟的IP地址1. if...
2019-07-03 20:10:45 465
转载 kafka mq
作者:jiangzz 电话:15652034180 微信:jiangzz_wx 微信公众账号:jiangzz_wyApache Kafka 消息队列消息队列消息:系统间通信介质,存在形式多样化一般使用 字节序列化、Json、xml等队列:先进先出 FIFO 数据结构消息队列(Message Queue):可以用于系统间通讯的一个组件-middle ware(中间件),该组件可以用于做消息...
2019-07-03 20:09:33 607
spring-cloud.zip
2020-07-30
Postman.zip
2020-07-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人