大数据
文章平均质量分 51
javafanwk
专注微服务架构,熟悉react、大数据、云计算,喜欢看java编程思想,设计模式,算法等书,希望通过我的努力减少代码量,提高java的标准化,提高程序的稳定度,认真搞技术,一直在路上,希望大家共同前行,进步。。。
展开
-
Scala
为什么学习Scala大数据主要的批处理计算引擎框架Spark是基于Scala语言开发的大数据主要的流式计算引擎框架Flink也提供了Scala相应的API大数据领域中函数式编程的开发效率更高,更直观,更容易理解Scala有六大特性:java和scala可以无缝混编(都是基于JVM) 类型推测(不必指定类型,自动推测类型) 支持并发和分布式(Actor) 特质:trait(集结了java中抽象类和接口的产物) 模式匹配(match case :类似于java中的switch c原创 2022-01-21 19:02:31 · 686 阅读 · 0 评论 -
Spark基本概念
Spark核心组件Driver将用户程序转化为作业(job) 在Executor之间调度任务(task) 跟踪Executor的执行情况 通过UI展示查询运行情况ExecutorSpark Executor是集群中工作节点(Worker)中的一个JVM进程,负责在 Spark 作业中运行具体任务(Task),任务彼此之间相互独立。 负责运行组成Spark应用的任务,并将结果返回给驱动器进程 它们通过自身的块管理器(Block Manager)为用户程序中要求缓存的 RDD 提供...原创 2022-01-21 18:20:29 · 2253 阅读 · 0 评论 -
Flink 检查点 保存点
支持带有事件时间的窗口 (Window) 操作支持有状态计算的 Exactly-once语义 (依靠以下两点保证)1.flink的checkpoint特性,Flink 检查点算法(Chandy-Lamport 算法的变种) 2.是两阶段提交检查点算法的种类一种简单的想法(同步的思想)暂停应用,保存状态到检查点,再重新恢复应用(SparkStreaming)Flink 的改进实现(异步的思想)基于Chandy-Lamport 算法的分布式快照算法 将检查点的保存和数据处理分离开,不原创 2022-01-21 17:48:54 · 1590 阅读 · 0 评论 -
Flink 8 个Process Function
所有的Process Function 都继承自RichFunction 接口,所以都有open()、close() 和getRuntimeContext() 等方法原创 2022-01-21 17:11:20 · 816 阅读 · 0 评论 -
Flink - 窗口
窗口(Window)就是将无限流切割为有限流的一种方式,它会将流数据分发到有限大小的桶(bucket)中进行分析时间窗口(Time Window)滚动时间窗口将数据依据固定的窗口长度对数据进行切分时间对齐,窗口长度固定,没有重叠滑动时间窗口 会话窗口(只有Flink 支持)计数窗口(Count Window)滚动计数窗口 滑动计数窗口窗口分配器——window() 方法处理时间窗口window(TumblingProcessingTimeWindows.of(T原创 2022-01-21 16:57:01 · 763 阅读 · 0 评论 -
Flink 简介
Flink 中的特点时间驱动(Event-driven)流批一体基于流的世界观:在Flink 的世界观中,一切都是由流组成的,离线数据是有界的流;实时数据是一个没有界限的流:这就是所谓的有界流和无界流Spark Streaming和Flink的区别数据模型Spark 采用RDD 模型,Spark Streaming 的DStream 实际上也就是一组组小批数据RDD 的集合 Flink 基本数据模型是数据流,以及事件(Event)序列(Integer、String、Long原创 2022-01-21 16:44:32 · 711 阅读 · 0 评论 -
Apache Flume 用途
官网:http://flume.apache.org/Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of streaming event data.flume是一个分布式、可靠、和高可用的海...原创 2021-04-26 09:37:30 · 232 阅读 · 0 评论 -
log日志 基础概念
一、log4j中log.isDebugEnabled(), log.isInfoEnabled()和log.isTraceEnabled()作用SpringMVC源码,在应用log4j打印Debug,Info和Trace级别的log时需要加上对应的三个方法进行过滤,代码如下:if (logger.isTraceEnabled()) { logger.trace("Testing...原创 2019-06-28 15:23:31 · 1823 阅读 · 0 评论 -
Python 面向对象 self
#!/usr/bin/python# -*- coding: UTF-8 -*- class Employee: '所有员工的基类' empCount = 0 def __init__(self, name, salary): self.name = name self.salary = salary Employee.em...原创 2019-07-03 19:21:42 · 396 阅读 · 0 评论 -
Spark 相关概念
什么是Spark官网:http://spark.apache.orgApache Spark™ is a unified analytics engine for large-scale data processing.Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2...原创 2019-06-28 10:28:18 · 277 阅读 · 0 评论 -
数据仓库 数据同步策略
增量型无状态变更数据假设数据源是流水数据,此类数据没有状态变更,写入数据库后基本不再改变,数据中一般包含 Created_time 信息,可以根据 Created_time 的值获取增量数据,或者记录上次的获取到的 ID,然后从下一个 ID 开始获取,这是一种纯增量采集。2.有状态变更数据假设表比较大,比如说一些订单表,这些表的状态变化周期一般偏长,状态变化一直会更新,而且状态变...原创 2019-07-02 15:41:39 · 1979 阅读 · 1 评论 -
范式基本概念 第一范式、第二范式、第三范式
范式理论概述关系型数据库设计时,遵照一定的规范要求,目的在于降低数据的冗余性和数据的一致性,目前业界范式有:第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、斯-科德范式(BCNF)、第四范式(4NF)、第五范式(5NF)。范式的标准定义是:符合某一种级别的关系模式的集合,表示一个关系内部各属性之间的联系的合理化程度。通俗地讲,范式可以理解为一张数据表的表结构所符合的某种设计标准...原创 2019-07-02 15:04:51 · 19099 阅读 · 0 评论 -
数据仓库 基本概念
1.什么是数据库?数据库(Database)是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。数据库是长期储存在计算机内、有组织的、可共享的数据集合。数据库中的数据指的是以一定的数据模型组织、描述和储存在一起、具有尽可能小的冗余度、较高的数据独立性和易扩展性的特点并可在一定范围内为多个用户共享。常用的数据库有 MySQL、ORACLE、SQL Server 等。2...原创 2019-07-02 14:35:06 · 6828 阅读 · 0 评论 -
Flume 相关概念
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。注意:配置文件可以参考官方手册http://flume.apache.org/FlumeUserGuide.htmlFlume组成架构AgentAgent是一个JVM进程,它以事件的形式将数据从源头送至目的,是Flume数据传输的基本单...原创 2019-06-26 10:43:04 · 121 阅读 · 0 评论 -
Kafka 相关概念
为什么需要消息队列1)解耦: 允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。2)冗余:消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险。许多消息队列所采用的"插入-获取-删除"范式中,在把一个消息从队列中删除之前,需要你的处理系统明确的指出该消息已经被处理完毕,从而确保你的数据被安全的保存直到你使用完毕。3)扩展性:因...原创 2019-06-26 09:59:21 · 402 阅读 · 0 评论 -
HBase原理
HBase读数据流程1)Client先访问zookeeper,从meta表读取region的位置,然后读取meta表中的数据。meta中又存储了用户表的region信息;2)根据namespace、表名和rowkey在meta表中找到对应的region信息;3)找到这个region对应的regionserver;4)查找对应的region;5)先从MemStore找数...原创 2019-06-26 10:19:46 · 171 阅读 · 0 评论 -
HBase 相关概念
什么是HBaseHBase的原型是Google的BigTable论文,受到了该论文思想的启发,目前作为Hadoop的子项目来开发维护,用于支持结构化的数据存储。官方网站:http://hbase.apache.org-- 2006年Google发表BigTable白皮书-- 2006年开始开发HBase-- 2008年北京成功开奥运会,程序员默默地将HBase弄成了Hadoop...原创 2019-06-26 10:13:25 · 230 阅读 · 0 评论 -
Hadoop简介
一、Hadoop 是什么1)Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构2)主要解决,海量数据的存储和海量数据的分析计算问题。3)广义上来说,HADOOP 通常是指一个更广泛的概念——HADOOP 生态圈二、Hadoop 发展历史1)Lucene–Doug Cutting 开创的开源软件,用 java 书写代码,实现与 Google 类似的全文搜 索功...原创 2019-05-20 09:32:57 · 395 阅读 · 0 评论 -
大数据技术生态体系
大数据技术生态体系图中涉及的技术名词解释如下:1)Sqoop:sqoop 是一款开源的工具,主要用于在 Hadoop(Hive)与传统的数据库(mysql)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle 等)中的数据导进到 Hadoop 的 HDFS 中,也可以将 HDFS 的数据导进到关系型数据库中。2)Flume:Flume 是 Cloud...原创 2019-05-20 09:30:24 · 1660 阅读 · 0 评论