![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
Adobee Chen
这个作者很懒,什么都没留下…
展开
-
gitlab 修改项目名
1.General project settings修改项目名2.Advanced settings原创 2022-04-02 17:57:57 · 491 阅读 · 0 评论 -
hadoop源码解析--namenode启动流程
hdfs源码解析@[TOC]hdfs启动流程hdfs读流程hdfs写流程原创 2021-01-15 14:24:17 · 110 阅读 · 0 评论 -
flink基础教程
一:flink初识Flink起源于Stratosphere项目,Stratosphere是在2010~2014年由3所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目,2014年4月Stratosphere的代码被复制并捐赠给了Apache软件基金会,参加这个孵化项目的初始成员是Stratosphere系统的核心开发人员,2014年12月,Flink一跃成为Apache软件基金会的顶级项...原创 2019-05-28 17:54:17 · 1435 阅读 · 2 评论 -
Delta Lake理解
任何一个轮子都有被造出来的原因,Delta Lake项目出现的原因是什么、为了解决什么问题、怎么使用、使用场景,有什么缺点、是否有别的更好的组件替代。更深的就是深入源码弄懂整个流程是什么。Delta Lake是一个数据湖产品,什么是数据湖?? 数据仓库是将数据进行ETL,存入HDF或者别的数据库。 数据湖是将所有类型的数据不进行处理,直接存入,做分析时,才将数据进行ETL。但是数据不进行处...原创 2019-05-24 11:08:19 · 4848 阅读 · 4 评论 -
kettle入门
1)kettle安装 安装包有1.1g2)在解压后将mysql/oracle驱动包放在data-integration\lib下,不然连接数据库时候回报没有驱动三 解压后点击启动四 按照图示顺序 分别填好五 根据需求进行转换例如 从A表,输出到B表,并且字段改变 1)将核心对象中的表输入拖到图示位置 2)双击打开...原创 2019-03-05 20:11:14 · 175 阅读 · 0 评论 -
Isolation Forest孤立森林(一)
孤立森林论文地址 http://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/icdm08b.pdf概要 现有的基于模型的异常检测方法大多是构造一个正常实例的概要文件,然后将不符合标准的实例作为异常文件进行认证。本文提出了一种完全不同的基于模型的方法,该方法明确地分离了异常。实证评价表明,在AUC和处理时间方面,特别是在大数据集方面,经...原创 2018-12-26 16:12:44 · 2000 阅读 · 0 评论 -
Isolation Forest孤立森林(二)之sklearn实现,源码分析
孤立森林算法sklearn实现,源码分析算法一: 首先初始化一些参数class sklearn.ensemble.IsolationForest(n_estimators=100, max_samples=’auto’, contamination=’legacy’, max_features=1.0, bootstrap=False, n_jobs=None, behaviour=’...原创 2019-01-02 11:21:20 · 10820 阅读 · 4 评论 -
Isolation Forest(二)之spark-iforest源码分析
github地址:https://github.com/titicaca/spark-iforest项目的目录结构如图,breastw.csv是乳腺癌分类数据全部数据地址:https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data...原创 2019-01-04 11:32:31 · 1669 阅读 · 6 评论 -
Hbase2.0新特性(一)
HBASE-20464 | Major | 禁用IMC①在CompactingMemStore这个类中 默认使用BASIC public static final String COMPACTING_MEMSTORE_TYPE_DEFAULT = String.valueOf(MemoryCompactionPolicy.BASIC);②但是优先级别是 hbase-default.xml...原创 2018-06-28 09:26:14 · 3008 阅读 · 0 评论 -
hadoop运行模式(一)
一.Hadoop的组成: 1)HDFS 分布式文件系统 2)MapReduce 分布式的离线并行计算框架 3)Hadoop YARN:作业调度与集群资源管理的框架 4)支持其他模块的工具模块 二:Hadoop运行环境的搭建:完成以下8步即可1.虚拟机网络模式设置为NAT2.克隆虚拟机3.修改为静态ip[root@hadoop101 /]原创 2018-01-30 00:18:47 · 441 阅读 · 0 评论