自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

追赶者的博客

大数据开发

原创 FlinkSql 读取kafka sink到mysql 案例

public static void main(String[] args) { StreamExecutionEnvironment bsEnv = StreamExecutionEnvironment.getExecutionEnvironment(); b...

2019-11-27 15:36:18 237 0

数据结构重习之1-数据逻辑结构和数据的存储结构

数据的逻辑结构:简单的来说就是指数据对象中各数据之间的相互关系。这个概念不是很难理解。比如把数据对象比作一个家庭,把逻辑关系就是家庭成员的之间的关系,如夫妻、父子等逻辑关系。 在数据结构中,数据的逻辑关系比较稍微复杂一点,其关系有四个: 1:集合结构 2:线性结构 元素之间一对一 3:树形...

2019-11-27 09:56:37 28 0

原创 Cannot instantiate user function.

Caused by: org.apache.flink.streaming.runtime.tasks.StreamTaskException: Cannot instantiate user function. at org.apache.flink.streaming.api.graph.S...

2019-09-26 16:54:46 463 0

原创 Flink时间窗口代码分析

本代码分析以TumblingEventTimeWindows 为例,若有疏忽,请包涵。 第一步 在TumblingEventTimeWindows 类中调用assignWindows()方法。 public Collection<TimeWindow> assignWindows(...

2019-08-16 15:23:18 767 0

原创 ERROR: java.io.IOException: Table Namespace Manager not fully initialized, try again later

ERROR: java.io.IOException: Table Namespace Manager not fully initialized, try again later     at org.apache.hadoop.hbase.master.HMaster.checkNamespa...

2018-08-10 17:15:02 1363 0

原创 网站性能测试基本概念

注:引用李智慧教授的架构核心原理书籍;若有不足地方欢迎指出 一 系统性能测试的指标  1:响应时间  及一个操作到返回的时间;包括从发出请求开始到收到最后响应数据所需要的时间;这个指标直接放映了系统的反应的快慢。  2:并发数 指的是系统同时处理请求的数目,这个数字放映了系统的负载特性。 ...

2018-01-29 10:52:20 452 0

原创 Elasticsearch索引内部原理最简洁的归纳

Elasticsearch 内部索引写入原理 :    1: 索引首先会写入到索引的 buffer缓存和translog日志文件中,这个期间不能被客户端索引;    2:每隔一秒钟,buffer 缓存中的数据会被写入到新的segment缓存文件 file中,同时写入系统的缓存中os cachi...

2018-01-11 15:53:54 1354 0

原创 yarn提交总结

注:此记录仅做自己学习记录 yarn的提交过程简单的总结如下: 第一步:client 通过RPC 的applicationClientProcotol协议提交客户自己编码的应用程序到 resourceManager 第二步:applicationMaster 启动后,首先向resourceMana...

2017-09-07 15:13:51 476 0

转载 分布式基本副本控制协议

分布式协议

2017-08-30 14:39:55 444 0

转载 分布式系统一致性

分布式一致性

2017-08-24 18:56:15 595 0

翻译 分布式系统的网络异常

分布式系统

2017-08-24 18:19:07 1674 0

转载 Http协议与TCP协议简单理解(转)

tcp和http协议区别

2017-08-04 10:59:08 459 0

转载 spark整合kafka案例

spark 整合kafka

2017-08-03 11:30:26 1157 1

转载 过拟合和欠拟合---西瓜笔记一

申明:仅学习过程笔记记录,多处引用周志华老师书本内容 错误率:把分类错误的样本占总体样本总数的比率 精度(accuracy)= 1 -错误率 误差:把学习器的实际预测输出与样本的真实输出的差异叫做误差;

2017-08-01 16:55:28 303 0

原创 线程join和sleep的区别

线程sleep 和 wait 的区别

2017-08-01 10:37:58 871 0

原创 多线程wait 和 notify的判断条件(if 和 while)和假死

多线程通信;notify和wait

2017-07-31 17:21:27 3509 0

原创 springboot+quartz分布式

quartz分布式

2017-07-26 10:32:23 5782 2

原创 JVM 优化浅解分析

先上个图;了解一下gc各个内存分配: 优化问题点:      1:内存回收导致的长时间停顿 ;由于堆设置太大,一次Full GC的停顿时间高达14秒。并且由于程序设计的关系,访问文档时要把文档从磁盘提取到内存中,导致内存中出现很多由文档序列化产生的大对象,这些大对象很多都进入了老年代,没有在M...

2017-07-24 17:58:02 247 0

原创 jvm 垃圾回收机制 安全点

上一节,我们说到  jvm 保洁阿姐一边打扫的,别人一边扔垃圾怎么处理呢? 其实很简单,jvm保洁阿姐再打扫前,告诉公司所有说:我要打扫了,你们不准扔垃圾了;OK解决了! 哈哈。那在jvm垃圾回收中,上面的情景怎么处理呢?在可达性分析中要分析哪个对象没有引用的时候,必须在一中快照的状态点进行,就是...

2017-07-24 14:15:32 1250 0

原创 jvm的垃圾回收机制——jvm超简洁直白理解

jvm的保洁啊姐一早就来了,但让保洁阿姐犯愁的事情是:   一:哪些东西需要回收呢?   二:什么时候回收呢?   三:用什么方式回收呢?那我们先弄清上面疑问前,先了解一下jvm的内存分配jvm 内存可以分栈,本地方法栈,程序计数器、堆和方法区;栈 :  线程私有,生命周期和线程同步;存放局部变量...

2017-07-21 11:33:50 665 0

转载 (转)Java 详解 JVM 工作原理和流程

jvm内存和原理

2017-06-27 17:43:15 691 0

转载 堆和栈的区别-JVM内存

JAVA JVM的内存的堆和栈分别用途是什么呢? 先了解一JVM的内存分布,大体见下图所示:

2017-06-13 11:28:47 734 0

原创 Kafka AdminClient 管理Kafka Offset代码实现

kafka offset 管理命令,kafka offset 代码现

2017-06-07 09:19:00 7012 2

翻译 决策树、随机森林简单原理和实现

本文申明:此文为学习记录过程,中间多处引用大师讲义和内容 一:概念 决策树(Decision Tree)是一种简单但是广泛使用的分类器。通过训练数据构建决策树,可以高效的对未知的数据进行分类。决策数有两大优点:1)决策树模型可以读性好,具有描述性,有助于人工分析;2)效率高,决策树只需要一次构建,...

2017-05-01 20:37:03 9283 2

转载 逻辑Logistic回归原理和实现

首先申明:引用此博客为学习记录用,中间引用了Andrew NG的视频内容和Z老师的授课内容,因个人能力有限若有不足的地方,欢迎大家提出一起研究学习;     第一我们先给予逻辑回归的定义:逻辑回归(Logistic Regression, LR)模型其实仅在线性回归的基础上,套用了一个逻辑函数,...

2017-05-01 12:52:02 2327 0

转载 线性回归原理和实现基本认识

一:介绍        线性回归在假设特证满足线性关系,根据给定的训练数据训练一个模型,并用此模型进行预测。先举个简单的例子;我们假设一个线性方程 Y=2x+1, x变量为商品的大小,y代表为销售量;当月份x =5时,我们就能根据线性模型预测出 y =11销量;对于上面的简单的例子来说,我们可以粗...

2017-04-28 17:04:57 50221 6

转载 svm算法 最通俗易懂讲解

最近在学习svm算法,借此文章记录自己的学习过程,在学习很多处借鉴了z老师的讲义和李航的统计,若有不足的地方,请海涵;svm算法通俗的理解在二维上,就是找一分割线把两类分开,问题是如下图三条颜色都可以把点和星划开,但哪条线是最优的呢,这就是我们要考虑的问题; 首先我们先假设一条直线为 W•...

2017-04-21 16:57:54 80590 14

转载 sqoop从greenplum到数据到hive中

关于sqoop原理详见官文,这里都不做介绍,此处就记录用sqoop把greenplum数据导到hive中的方法和我测试时候遇到的问题; 一:sqoop的解压安装后,配置sqoop-env.sh配置文件 二:把链接数据库的mysql-connector-java-5.1.3-jar包传到sqoop...

2017-04-14 13:50:35 3501 0

转载 机器学习之 损失函数和风险函数

当样本容量足够大的时候,经验风险最小化能保证有很好的学习效果,但样本数量小的时候,就会产生“过拟合”现象。因为参数太多,会导致我们的模型复杂度上升,容易过拟合(训练误差会很小),但训练误差小不是我们的终极目标,我们的目标也是测试误差也小,所以我们要保证模型最简单的基础下最小化训练误差;模型复杂度可...

2017-03-09 15:26:07 5102 0

转载 深入理解拉格朗日乘子法(Lagrange Multiplier) 和KKT条件

,拉格朗日乘子法(Lagrange Multiplier) 和KKT条件是非常重要的两个求取方法,对于等式约束的优化问题,可以应用拉格朗日乘子法去求取最优值;如果含有不等式约束,可以应用KKT条件去求取。当然,这两个方法求得的结果只是必要条件,只有当是凸函数的情况下,才能保证是充分必要条件。KKT...

2017-02-23 14:51:54 362 0

原创 虚拟存储器

一个系统中的进程是与其他进程共享CPU和主存资源的,然而,共享主存会形成一些特殊的情况,如果太多的进程需要太多的储存器,那么他们中的一些就根本无法运行。当一个程序没有空间可用的时候,那就是他运气不好。存储器还容易被迫害,如果一个进程不小心写了另一个进程使用的存储器,它就可能失去原先的逻辑。为了更有...

2017-02-22 10:14:01 2311 0

原创 链接

链接 是将各种代码和数据部分收集起来并组合成一个单一可执行文件的过程,这个文件可被加载到存储器并执行、链接可以在编译时(源代码被翻译成机器代码时候)、加载时执行,也可以在程序被加载器加载到存储器并执行时,甚至可以执行于运行时,由应用程序来执行。链接早期是手工的,在现在系统中,链接是由叫连接器的程...

2017-02-22 09:34:01 297 0

原创 存储器层次结构

存储器系统

2017-02-21 15:53:21 934 0

原创 优化程序性能

编写高效的程序需要以下活动:    1:选择合适的算法和数据结构    2:必须编写出编译器能够有效优化及转化成高效执行代码的源代码    3:大量数据采用并行计算

2017-02-21 11:40:11 289 0

原创 sparkMlib实现协同过滤算法

协同过滤常被应用于推荐系统。这些技术旨在补充用户-商品关联矩阵中所缺失的部分。MLlib当前支持基于模型的协同过滤,其中用户和商品通过一小组隐语义因子进行表达,并且这些因子也用于预测缺失的元素。为此,我们实现了交替最小二乘法(ALS) 来学习这些隐性语义因子。在 MLlib 中的实现有如下的参数...

2017-02-17 15:20:28 1556 0

原创 sparkmlib使用Pipeline实现简单的逻辑回归

sparkmlib pipeline

2017-02-15 16:36:45 1385 2

原创 sparkMlib逻辑回归分析实现

sparkMlib实现逻辑回归分析

2017-02-15 15:02:55 818 0

原创 SparkMlib实现线性回归

sparkMlib实现线性回归

2017-02-14 18:05:37 1706 2

原创 处理器体系结构

一:SEQ处理器:每个时钟周期执行一条完整的指令;所以它的时钟必须足够慢,以允许一个周期内完成所有的动作; CPU的运行原理就是:控制单元在时序脉冲的作用下,将指令计数器里所指向的指令地址(这个地址是在内存里的)送到地址总线上去,然后CPU将这个地址里的指令读到指令寄存器进行译码。对于执行指令过程...

2017-02-13 16:17:07 386 0

原创 神经网络分类算法 数据挖掘

神经网络分类介绍:       神经网络就是一组相互连接的输入输出单元,这些单元之间的每个连接都关联一个权重。在网络学习阶段,网络通过调整权重来实现输入样本与其相应(正确)类别的对应。由于网络学习主要是针对其中的连接权重进行的,因此神经网络的学习有时也称为连接学习;神经网络的优点就是对噪声数据有...

2017-02-09 16:36:47 8071 0

提示
确定要删除当前文章?
取消 删除