- 博客(16)
- 资源 (5)
- 收藏
- 关注
原创 17张图带你彻底搞懂hudi upsert源码
前言 如果要深入了解apache hudi技术的应用或是性能调优,那么明白源码中的原理对我们会有很大的帮助。在apache hudi 中upsert 是他的核心功能之一,主要完成增量数据在hdfs上的修改,并可以支持事务。在hive中修改数据需要重新分区或重新整个表,但是对于hudi更新可以是文件级别的重写或是数据先进行追加后续在重写,对比Hive 大大的提高了更新性能。upsert支持两种模式的写入copy on write和merge on read ,下面本文将介绍Apache Hu
2021-05-15 10:53:42 6118 8
原创 数据埋点日志收集测试环境搭建
1.前置环境安装准备1.1主机环境ip地址主机名称系统192.168.199.111mastercentos7192.168.199.112node1centos7192.168.199.113node2centos71.2 其他软件版本软件名称版本链接地址java1.8.0_161-b12nginxnginx-1.9.9https://nginx.org/download/nginx-1.9.9.tar.gz
2021-05-03 19:56:22 933 1
原创 Apache Hudi在医疗大数据的应用
Apache Hudi在医疗大数据的应用 本篇文章主要介绍hudi在医疗大数据中的应用,主要分为5个部分进行介绍:建设背景,为什么选择hudi,hudi的数据同步,存储类型选择及查询优化,未来发展与思考。01 建设背景 我们公司主要为医院建立大数据应用平台,需要从各个医院系统中抽取数据建立大数据平台。如医院信息系统,实验室(检验科)信息系统,体检信息系统,临床信息系统,放射科信息管理系统,电子病
2020-05-29 23:25:27 1091
原创 Apache+Hudi入门指南(含代码示例)
1. 什么是Apache Hudi一个spark 库大数据更新解决方案,大数据中没有传统意义的更新,只有append和重写(Hudi就是采用重写方式)使用Hudi的优点使用Bloomfilter机制+二次查找,可快速确定记录是更新还是新增更新范围小,是文件级别,不是表级别文件大小与hdfs的Blocksize保持一致数据文件使用parquet格式,充分利用列存的优势(drema...
2020-02-24 21:09:26 12980 20
原创 flink 1.9 sql-client 连接hive catalog配置
一,下载flink 1.9 或编译flink 1.9下载地址:https://www.apache.org/dyn/closer.lua/flink/flink-1.9.0/flink-1.9.0-bin-scala_2.11.tgzflink 1.9 编译或特殊版本编译(如cdh ,Hortonworks等)参考另一篇文章https://blog.csdn.net/h33514650...
2019-09-10 16:23:33 6956 1
原创 flink 1.9 编译(含cdh版本编译)
一,github获取flink 最新代码git clone https://github.com/apache/flink切换到flink 1.9分支git checkout release-1.9二,编译flink 代码flink 集群或单机模式打包,该模式打包是没有yarn-cluster命令,任务是无法提交任务到yarn上.mvn clean install ...
2019-07-19 16:45:22 5182 2
原创 hadoop windows远程调试
前言因为之前工作都是使用的ubuntu系统,所以调试一直是在本地机器根本不会使用远程调试。但是新来的同事习惯使用window的系统,希望能够远程调试hadoop代码。所以研究了下调试方法。一,远程测试集群配置在linux 远程测试集群进行如下配置export HADOOP_CLIENT_OPTS=-agentlib:jdwp=transport=dt_soc...
2019-03-29 14:47:04 263
原创 jvm 内存模型,参数配置,命令解释
1,jvm的组成java 堆1,所有系统对象都保存在jvm 堆中2,所有线程共享java堆3,堆是分代的,分为eden s0 s1 renured4, gc 工作的主要空间java 栈1,线程私有的2,栈是由一系列帧组成3,每次方法调用都会创建一个帧,并压栈4,每个方法执行,都会创建一个栈帧,伴随着方法从创建到执行完成。用于存储局部变量表,操作数栈,动...
2019-03-29 14:46:09 302
原创 cdh5.5 RHadoop安装
1.安装环境操作系统:CentOS release 6.4 linux集群环境:cdh5.5 hadoop2.6java版本:jdk1.7 R版本:3.32.环境安装2.1 R 环境安装apt-get update
2016-02-28 20:32:21 785
原创 python脚本当作Linux中的服务启动
脚本服务化目的:python 在 文本处理中有着广泛的应用,为了满足文本数据的获取,会每天运行一些爬虫抓取数据。但是网上买的服务器会不定时进行维护,服务器会被重启。这样我们的爬虫服务就无法运行。这个时候我们可以把python脚本服务化,服务器重启后,脚本就会自动运行。解决服务器维护后需要手动运行python脚本。实现方法:1,给编写好的python脚本开头加上#!/usr/bi
2016-02-19 23:09:03 6862
原创 金融数据分析quantmod 函数
获取股票数据getSymbols("EDU",src="yahoo",from='2013-10-01',to='2014-10-23')创建工作空间new.environment获取财务报表getFinancials("AAPL")is 函数 判断某数据是否是某类型的数据is.OHLC() 判断是否有开盘
2016-02-10 16:58:39 1735
原创 距离判别法
距离判别法:距离判别方是通过计算待测点到各个分类的距离,在根据计算出距离的大小,进行判别该待测点属于那个分类。但是距离的计算是通过马氏距离进行计算的,而不是我们平常几何中用的欧式距离。欧式距离的定义: 欧氏距离是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公式。(1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离: (2
2016-02-10 16:56:52 14163
原创 线性判别法
线性判别法原理:用一条直线来划分已有的学习集的数据,然后根据待测点在直线的那一边决定的分类。如下图可以做出一条直线来划分两种数据的分类。 但是一般情况下特征数很多,想降低特征数维度。可以通过投影的方式进行计算。然而使得一个多维度特征数变换到一条直线上进行计算。可以减少计算工作的复杂度。推算过程:http://blog.csdn.net/carson
2016-02-10 16:45:45 1003
转载 nutch 插件原理
plugin(插件)为nutch提供了一些功能强大的部件,nutch中很多功能都是使用插件实现的,而使用者也可以自行开发更多适合自已的插件。nutch使用这样的plugin系统有什么好处:1:可扩展性 通过plugin,nutch允许任何人扩展它的功能,而我们要做的只是对给定的接口做简单的实现,举个例子:我们在NUTCH里使用LOADBALANCE进行下载的插件,它就是一个
2013-09-05 16:23:56 527
转载 Nutch1.2增加插件例子
今尝试下给nutch1.2增加一个插件,于是到官网找了个例子,链接如下:http://wiki.apache.org/nutch/WritingPluginExample-0.9这个例子实现的的是推荐网站,就是写关键字在content里,当别人搜索这个关键字时,你推荐的网站在搜索结果中排前,要实现推荐必须在你的网页上加上[xhtml] view plai
2013-09-05 16:11:37 427
原创 Flex 框架cairngorm的学习
View(界面): View部分就是页面了,这部分需要注意的就是声明ServiceLocator和FrontControl。ServiceLocator的声明和我们之前提到的FrontControl是一样的。View部分的作用就是提供界面,发送信号,响应绑定数据变化。<service:UserService id="myService"/> ...
2012-10-06 00:18:43 119
hudi mvn 依赖pom文件
2020-02-21
j2ee 所需所有api文档
2013-01-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人