别过来胖到我了-CSDN博客

原创 17张图带你彻底搞懂hudi upsert源码

前言如果要深入了解apache hudi技术的应用或是性能调优，那么明白源码中的原理对我们会有很大的帮助。在apache hudi 中upsert 是他的核心功能之一，主要完成增量数据在hdfs上的修改，并可以支持事务。在hive中修改数据需要重新分区或重新整个表，但是对于hudi更新可以是文件级别的重写或是数据先进行追加后续在重写，对比Hive 大大的提高了更新性能。upsert支持两种模式的写入copy on write和merge on read ，下面本文将介绍Apache Hu

2021-05-15 10:53:42 6118 8

原创数据埋点日志收集测试环境搭建

1.前置环境安装准备1.1主机环境ip地址主机名称系统192.168.199.111mastercentos7192.168.199.112node1centos7192.168.199.113node2centos71.2 其他软件版本软件名称版本链接地址java1.8.0_161-b12nginxnginx-1.9.9https://nginx.org/download/nginx-1.9.9.tar.gz

2021-05-03 19:56:22 933 1

原创 Apache Hudi在医疗大数据的应用

Apache Hudi在医疗大数据的应用本篇文章主要介绍hudi在医疗大数据中的应用，主要分为５个部分进行介绍：建设背景，为什么选择hudi,hudi的数据同步，存储类型选择及查询优化，未来发展与思考。01 建设背景我们公司主要为医院建立大数据应用平台，需要从各个医院系统中抽取数据建立大数据平台。如医院信息系统，实验室（检验科）信息系统，体检信息系统，临床信息系统，放射科信息管理系统，电子病

2020-05-29 23:25:27 1091

原创 Apache+Hudi入门指南（含代码示例）

1. 什么是Apache Hudi一个spark 库大数据更新解决方案，大数据中没有传统意义的更新，只有append和重写(Hudi就是采用重写方式)使用Hudi的优点使用Bloomfilter机制+二次查找，可快速确定记录是更新还是新增更新范围小，是文件级别，不是表级别文件大小与hdfs的Blocksize保持一致数据文件使用parquet格式，充分利用列存的优势（drema...

2020-02-24 21:09:26 12980 20

原创 flink 1.9 sql-client 连接hive catalog配置

一，下载flink 1.9 或编译flink 1.9下载地址：https://www.apache.org/dyn/closer.lua/flink/flink-1.9.0/flink-1.9.0-bin-scala_2.11.tgzflink 1.9 编译或特殊版本编译（如cdh ，Hortonworks等）参考另一篇文章https://blog.csdn.net/h33514650...

2019-09-10 16:23:33 6956 1

原创 flink 1.9 编译(含cdh版本编译)

一，github获取flink 最新代码git clone https://github.com/apache/flink切换到flink 1.9分支git checkout release-1.9二，编译flink 代码flink 集群或单机模式打包，该模式打包是没有yarn-cluster命令,任务是无法提交任务到yarn上.mvn clean install ...

2019-07-19 16:45:22 5182 2

原创 hadoop windows远程调试

前言因为之前工作都是使用的ubuntu系统，所以调试一直是在本地机器根本不会使用远程调试。但是新来的同事习惯使用window的系统，希望能够远程调试hadoop代码。所以研究了下调试方法。一，远程测试集群配置在linux 远程测试集群进行如下配置export HADOOP_CLIENT_OPTS=-agentlib:jdwp=transport=dt_soc...

2019-03-29 14:47:04 263

原创 jvm 内存模型，参数配置，命令解释

1，jvm的组成java 堆1，所有系统对象都保存在jvm 堆中2，所有线程共享java堆3，堆是分代的，分为eden s0 s1 renured4, gc 工作的主要空间java 栈1，线程私有的2，栈是由一系列帧组成3，每次方法调用都会创建一个帧，并压栈4，每个方法执行，都会创建一个栈帧，伴随着方法从创建到执行完成。用于存储局部变量表，操作数栈，动...

2019-03-29 14:46:09 302

原创 cdh5.5 RHadoop安装

1.安装环境操作系统：CentOS release 6.4 linux集群环境：cdh5.5 hadoop2.6java版本：jdk1.7 R版本：3.32.环境安装2.1 R 环境安装apt-get update

2016-02-28 20:32:21 785

原创 python脚本当作Linux中的服务启动

脚本服务化目的：python 在文本处理中有着广泛的应用，为了满足文本数据的获取,会每天运行一些爬虫抓取数据。但是网上买的服务器会不定时进行维护，服务器会被重启。这样我们的爬虫服务就无法运行。这个时候我们可以把python脚本服务化，服务器重启后，脚本就会自动运行。解决服务器维护后需要手动运行python脚本。实现方法：1，给编写好的python脚本开头加上#!/usr/bi

2016-02-19 23:09:03 6862

原创金融数据分析quantmod 函数

获取股票数据getSymbols("EDU",src="yahoo",from='2013-10-01',to='2014-10-23')创建工作空间new.environment获取财务报表getFinancials("AAPL")is 函数判断某数据是否是某类型的数据is.OHLC() 判断是否有开盘

2016-02-10 16:58:39 1735

原创距离判别法

距离判别法：距离判别方是通过计算待测点到各个分类的距离，在根据计算出距离的大小，进行判别该待测点属于那个分类。但是距离的计算是通过马氏距离进行计算的，而不是我们平常几何中用的欧式距离。欧式距离的定义：欧氏距离是最易于理解的一种距离计算方法，源自欧氏空间中两点间的距离公式。(1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离： (2

2016-02-10 16:56:52 14163

原创线性判别法

线性判别法原理:用一条直线来划分已有的学习集的数据，然后根据待测点在直线的那一边决定的分类。如下图可以做出一条直线来划分两种数据的分类。但是一般情况下特征数很多，想降低特征数维度。可以通过投影的方式进行计算。然而使得一个多维度特征数变换到一条直线上进行计算。可以减少计算工作的复杂度。推算过程：http://blog.csdn.net/carson

2016-02-10 16:45:45 1003

转载 nutch 插件原理

plugin(插件)为nutch提供了一些功能强大的部件，nutch中很多功能都是使用插件实现的，而使用者也可以自行开发更多适合自已的插件。nutch使用这样的plugin系统有什么好处：1：可扩展性通过plugin，nutch允许任何人扩展它的功能，而我们要做的只是对给定的接口做简单的实现，举个例子：我们在NUTCH里使用LOADBALANCE进行下载的插件，它就是一个

2013-09-05 16:23:56 527

转载 Nutch1.2增加插件例子

今尝试下给nutch1.2增加一个插件，于是到官网找了个例子，链接如下：http://wiki.apache.org/nutch/WritingPluginExample-0.9这个例子实现的的是推荐网站，就是写关键字在content里，当别人搜索这个关键字时，你推荐的网站在搜索结果中排前，要实现推荐必须在你的网页上加上[xhtml] view plai

2013-09-05 16:11:37 427

原创 Flex 框架cairngorm的学习

View(界面): View部分就是页面了，这部分需要注意的就是声明ServiceLocator和FrontControl。ServiceLocator的声明和我们之前提到的FrontControl是一样的。View部分的作用就是提供界面，发送信号，响应绑定数据变化。<service:UserService id="myService"/> ...

2012-10-06 00:18:43 119

hudi mvn 依赖pom文件

hudi mvn 依赖pom文件hudi mvn 依赖pom文件hudi mvn 依赖pom文件hudi mvn 依赖pom文件hudi mvn 依赖pom文件

2020-02-21

j2ee 所需所有api文档

XML指南.chm xsd.chm servlet-api.chm MySQL_5.1_zh.chm JSP+API.CHM jdk1.6_API.CHM HTML5 参考手册.chm DTD.chm DHTML 手册.chm

2013-01-20

servlet-api.chm

servlet-api.chm api文档

2013-01-20

JSP+API.chm文档

关于jsp的api.chm的开发文档。

2013-01-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人