qihoo233-CSDN博客

原创 2020-09-21【学习笔记】【企业数据湖】一、数据湖概念概览（1）

一、什么是数据湖数据湖是一个存储企业的各种各样原始数据的大型仓库，其中的数据可供存取、处理分析及传输。数据湖与企业的关系数据湖可以给企业带来多种能力。例如实现数据的集中管理二、数据湖如何帮助企业实现数据治理与数据世系通过应用机器学习与人工智能技术实现商业智能预测分析，如领域特定的推荐引擎信息追踪与一致性保障根据对历史分析生成新的数据维度有一个集中式的能存储所有企业数据的数据中心，有利于实现一个针对数据传输优化的数据服务帮助组织和企业做出更多灵活的关于企业增长的决策

2020-09-21 23:58:28 1551 1

原创 2020-08-27【学习笔记】【主数据驱动的数据治理】一、数据治理概述（1）

随着互联网技术的高度发展，企业信息化的发展。导致企业数据的爆发式增长。企业数据环境日趋复杂。什么是数据管理？什么又是数据治理？按照国际数据管理（DAMA）协会的定义，数据管理（DM）是规划、控制、和提供数据及信息资产的一组业务职能，包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法、和程序，从而控制、保护、交付和提高数据和信息资产的价值。数据治理和众多新型学科一样，有很多种定义。IBM认为，数据治理是根据企业的数据管控政策，利用组织人员、流程和技术的相互协作，使企业能将“数..

2020-08-27 22:42:32 1240

原创 2020-08-26 【学习笔记】scala语言（一）环境搭建&HelloWorld案例

本人使用idea运行环境，对于idea用户来说scala环境安装十分简单环境安装参考如下两篇文章第一篇：官方安装文档（英文）：https://docs.scala-lang.org/getting-started/intellij-track/getting-started-with-scala-in-intellij.html第二篇：中文参考安装文档https://blog.csdn.net/lijinqing39/article/details/102476213环境安.

2020-08-26 23:18:06 115

原创农业信息化、智慧农业领域工作实践总结以及展望

该篇为目录页，结合自身的项目经验进行梳理。详细信息参考目录链接下的具体文章。农业是一个很宽泛的称呼，大体分为种植业与养殖业两部分，还有一些算是农村范畴业会有所涉及。种植业又可分大田农业、设施农业、风景园林、中草药等。养殖业分畜牧业，渔业等。

2025-01-09 23:15:48 758

原创 2020-10-12【学习笔记】【企业数据湖】九、基于Apache Hadoop存储数据（4）

七、Hadoop用于近实时应用虽然Hadoop生态系统中，Flume可以提供基于流的数据处理，但是Hadoop仍然需要大量定义数据处理。SparkStreaming是一种更为成熟的近实时数据处理框架，它与hadoop协同工作。按照微批处理的方式，提供了比Flume更为强大的功能。因为HDFS是一个顺序文件系统，所以文件的随机访问是一个比较大的挑战。为了解决HDFS随机访问的问题，HBase应运而生了。虽然Hbase支持随机访问但是实际上是面向键值对的。八、Hadoop的部署模式Stand

2020-10-12 22:15:47 223

原创 2020-10-11【学习笔记】【企业数据湖】九、基于Apache Hadoop存储数据（3）

四、Hadoop生态系统除了核心组件外，hadoop还包括了许多构建在核心组件之上的工具和库，统称为Hadoop生态系统Hadoop生态系统中的组件可以按照其功能进行分类，：数据访问/处理组件（Apache Pig、Hive）数据存储组件（Hbase）监控、管理和协调组件(Zookeeper,Oozie,Ambari)数据集成组件(sqoop,Flume)五、Hadoop发行版CDH（Cloudera Data Platform） HDP（Hortonwork Data P

2020-10-11 21:51:37 204

原创 2020-10-09【学习笔记】【企业数据湖】九、基于Apache Hadoop存储数据（2）

二、为什么使用Hadoop我们选择使用Hadoop存储数据的原因如下： Hadoop可以轻松地处理大量结构化、半结构化数据。实施成本低，因为他可以使用普通商用硬件并根据需求伸缩 Hadoop拥有一个处于不断增长状态的社区 Hadoop自身的库在构建时充分考虑了可用性，不依赖于底层硬件灵活的处理各种类型的数据 Hadoop具有比较高的实用性 Hadoop天生具有云化的属性 Hadoop天然具有健壮性和容错性 Hadoop拥有强大的计算能力 Hadoop拥有很高的运算速度 Hado

2020-10-09 22:09:21 246 1

原创 2020-10-07【学习笔记】【企业数据湖】九、基于Apache Hadoop存储数据（1）

一、数据湖背景中的数据存储和Lambda批处理层1、数据存储和Lambda批处理层存储层应该能够处理以下内容：支持各种查询分析工具不同模式下的多种类型的数据不同格式的数据不同规模的需求采用各种数据压缩技术保持持久化的效率不同的数据处理速度视情况而定，提供不同的查询机制和语言支持2、数据存储和Lambda批处理层--技术路线图3、什么是apache Hadoopapache hadoop是一种计算框架，在该框架中计算机集群可以进行分布式运算，同时也可以存储大量

2020-10-08 23:15:50 188

原创 2020-10-07【学习笔记】scala语言（四十） scala中的集合（1）

scala中的集合（1）scala中集合简介1、scala中的集合有三大类型：序列Seq、集Set、映射Map，所有的集合都扩展自Iterable特质2、对于几乎所有的集合类，scala都同时提供了可变和不可变的版本，分别位于一下两个包不可变集合：scala.collection.immutable可变集合：scala.collection.mutable3、scala不可变集合，就是指该集合对象不可修改，每次修改就会返回一个新对象，而不会对原对象进行修改。类似于java中的St.

2020-10-07 23:27:19 220

原创 2020-10-07【学习笔记】【企业数据湖】八、基于Apache Flink处理数据（3）

四、Flink的APIFlink中的基本操作可以用简单的术语进行表述Flink连接到数据源，然后执行业务逻辑相关操作最后将结果输出到sinkFlink可以处理两种形式的数据（实时，批量）所以其有两种apiDataStream API：实时数据流分析，JAVA和scala语言可以调用DataSet API：批量数据处理，Java，scala，python可以调用该api1、DataStreamAPI范例：首先获取StreamExecutionEnvironment对象

2020-10-07 22:37:44 126

原创 2020-10-06【学习笔记】scala语言（三十九） scala中的特质叠加的执行顺序

scala中的特质叠加的执行顺序package com.learnscala4object scala_trait3 { def main(args: Array[String]): Unit = { val mysql:mysql =new mysql mysql.op() //打印log DB OP }}trait operate{ def op():Unit={ println("operate") }}trait DB extend

2020-10-07 00:45:05 261

原创 2020-10-06【学习笔记】【企业数据湖】八、基于Apache Flink处理数据（2）

三、Flink的工作原理1、Flink架构Flink架构的关键是三个重要组件的协同工作Client（客户端）：代码解析，类型抽取，代码优化，图构建，传输任务至jobmanager，取回结果job manager（作业管理器）：任务调度，checkpoint，任务追踪，收集维护元数据。task manager（任务管理器）：任务在此执行2、flink架构的核心原则向用户屏蔽了大多数内部运行机制细节 api与实际执行逻辑解耦声明式编程无需或需要较少的调试统一的流式处理模

2020-10-06 20:34:50 157

原创 2020-10-05【学习笔记】scala语言（三十八） scala中的特质执行顺序

scala中的特质执行顺序package com.learnscala4object scala_trait2 { def main(args: Array[String]): Unit = { new user1 }}trait trait111{ println("111")}trait trait222 extends trait111{ println("222")}trait trait333{ println("333")}class

2020-10-05 23:30:38 203

原创 2020-10-05【学习笔记】【企业数据湖】八、基于Apache Flink处理数据（1）

一、数据湖背景中的数据摄取层数据摄取层是数据湖的一个核心功能层，如果需要处理来自不同应用的流式和批量数据，则该层至关重要。1、数据摄取层数据摄取指的是获取或导入数据用于中间处理或存储到数据库的过程。数据摄取层的一些特性：能以简单、快捷的方式处理输入的数据能处理多种不同的数据流能够处理多种数据结构集成了多种持久化存储机制支持多种传输协议能与多种不同的系统或技术连接2、数据摄取层技术路线3、什么是apache Flinkapache Flink 是一个开源的

2020-10-05 23:15:35 154

原创 2020-10-04【学习笔记】scala语言（三十七） scala中的特质

scala中的特质package com.learnscala4object scala_trait { def main(args: Array[String]): Unit = { }}trait person{ //类似于java的接口 var name:String def test():Unit var age:Int=18 def test1():Unit={}}class user extends person{ override v.

2020-10-04 23:14:24 139

原创 2020-10-04【学习笔记】【企业数据湖】七、基于Apache Kafka构建消息层（3）

六、生产者和消费者的可靠性分布式系统中，各个组件都有可能出现故障。所有代码设计上会考虑到以无缝方式处理这些故障。kafka的一个容错机制是维护消息的副本。消息被复制在所谓的分区中，kafka主动选择一个分区作为主分区。其他的从分区复制主分区。主分区还会维护一个同步副本的列表，以确保能维护理想的副本来处理故障。七、kafka的安全性kafka的安全性具体如下：无加密和认证 ssl：加密并认证 SASL：kerberos认证机制 SSL+SASL:用SSL做加密，用SASL做认证

2020-10-04 22:33:40 121

原创 2020-10-03【学习笔记】scala语言（三十六） scala中的apply方法

scala中的apply方法package com.learnscala4object scala_apply { def main(args: Array[String]): Unit = { //通过伴生对象的apply方法，实现不使用new方法创建对象 //如果想让主构造器变成私有的，可以在（）前加上private //apply方法可以重载 //scala中obj的语句实际是在调用该对象的apply方法，即obj。apply（org），用以统一面向对

2020-10-03 23:37:37 229 1

原创 2020-10-03【学习笔记】【企业数据湖】七、基于Apache Kafka构建消息层（2）

三、Kafka的架构1、kafka架构的核心原则LinkedIn的工程团队开发了Kafka，其背后的动因是，为了创建一个统一的消息传输平台，以适应来自各个应用程序的实时数据传输。kafka在构思和设计上有着其核心的架构准则：追求性能极致尽可能简化不必要的功能来实现性能优化分布式架构容错性消息持久化存储尽肯能剥离冗余的功能将部分功能交给消费者应用管理，不提供ack机制可扩展性高吞吐量实时处理这些消息并实时输出处理后的消息低延迟传输2、数据流的生命周期

2020-10-03 22:33:33 129

原创 2020-10-02【学习笔记】scala语言（三十五） scala中的单例对象（伴生对象）

scala中的单例对象（伴生对象）package com.learnscala4object sigobj { def main(args: Array[String]): Unit = { //单例对象（伴生对象）采用object关键字声明 //单例对象（伴生对象）对应的类称之为伴生类，伴生对象的名称应该和伴生类名一致。 //单例对象（伴生对象）中的属性和方法都可以通过伴生对象名，直接调用访问 println(user.name) }}//伴生.

2020-10-02 23:15:22 126

原创 2020-10-02【学习笔记】【企业数据湖】七、基于Apache Kafka构建消息层（1）

一、数据湖背景中的消息层1、消息层数据湖中的消息层应该具有以下功能：该层的一项核心功能是对源头和终端进行解耦能够处理来自应用服务器节点每秒几百MB的高速信息流能够处理TB甚至PB级数据能够低延迟、高吞吐的处理消息能够保证信息按照时间有序传输向多个消费者传递相同消息的能力。能够对运营统计数据进行分析，聚合来自不同数据源的数据并分析借助廉价硬件实现高性能能够实现最低程度的数据增加与转换2、技术路线图3、什么是Apache Kafka详情见wiki百科，Apa

2020-10-02 22:53:01 245

原创 2020-10-01【学习笔记】scala语言（三十四） scala中的动态绑定

scala中的动态绑定scala学习仓库地址：https://gitee.com/qh123/scala_learn

2020-10-01 23:19:32 170

原创 2020-10-01【学习笔记】【企业数据湖】六、基于Apache Flume的流式数据获取（3）

十一、Flume事务管理数据从客户端或者上一个sink进入当前的agent会触发一个事务，这种事务称为sourcetx。当事件在channel中持久化并收到确认信息后。sourcetx宣告结束。在agent的范围内，第二个事务是sinktx，该事务开始于sink轮询数据。十二、Flume的其他组件1、channelProcessor（持久化channel数据）2、interceptor（过滤）3、channel selector（与interceptor类似）4、sinkGrou

2020-10-01 22:57:10 171

原创 2020-09-30【学习笔记】scala语言（三十四） scala中的抽象方法（2）

scala中的抽象方法（2）scala学习仓库地址：https://gitee.com/qh123/scala_learn

2020-09-30 23:22:29 125

原创 2020-09-30【学习笔记】【企业数据湖】六、基于Apache Flume的流式数据获取（2）

四、flume架构一个简单的flume架构包含三个重要的组件，他们协同工作，并且以实时的方式将源数据传输到目的地。source：用于监听流式数据或事件，将其写入到channel channel：一个存储数据的流水线，数据存储在其中直到被其他组件取走 sink：用于从channal中获取事件并进一步处理或者持久化到数据存储。失败则重试还有一些众所周知的结构分布式数据流水线（上面结构可一个个的连接起来）扇出（一个source将数据传给多个channel）扇入（多source写入一个ch

2020-09-30 22:58:53 217

原创 2020-09-29【学习笔记】scala语言（三十三） scala中的抽象方法

scala中的抽象方法scala学习仓库地址：https://gitee.com/qh123/scala_learn

2020-09-29 23:45:18 251

原创 2020-09-29【学习笔记】【企业数据湖】六、基于Apache Flume的流式数据获取（1）

一、数据获取1、什么是流数据各种web和应用服务器生成的日志数据企业网站的用户行为数据客户在各种社交网络平台上产生的大量数据来自各种传感器的数据2、批量数据和流式数据批处理数据获取用sqoop，流式数据获取用flume3、流式数据获取技术路线图4、什么是flumeflume本意指通过修建渠道。利用渠道的能力从山上运输木材。这里指从数据源传输大量数据到目的地二、为什么使用flume1、flume简史flume是由cloudera公司开发的，专门用于.

2020-09-29 23:01:45 223

原创 2020-09-28【学习笔记】scala语言（三十二） scala中的继承

scala中的继承scala学习仓库地址：https://gitee.com/qh123/scala_learn

2020-09-28 23:32:22 224

原创 2020-09-28【学习笔记】【企业数据湖】五、基于Apache Sqoop的批量数据获取（2）

六、sqoop运行范例暂不介绍，请参考相关博客七、适合使用sqoop的场景HDFS作为主要的数据存储手段，用于存储来自于各不同源系统的数据。对于RDBMS与Hadoop数据传输，例如常规的批处理，或近似批处理，比较适合从MongoDB，Cassandra之类的NoSQL数据库传输数据到Hadoop文件系统中拥有大量依赖关系数据库的应用软件的企业，sqoop是数据传输的最佳选择Hadoop是一个存储海量数据的事实上的标准。如果需要考虑传输性能时，适合使用sqoopsqoop

2020-09-28 23:00:35 186

原创 2020-09-27【学习笔记】scala语言（三十一） scala中的构造器（2）

scala中的构造器（2）scala学习仓库地址：https://gitee.com/qh123/scala_learn

2020-09-27 23:47:42 88

原创 2020-09-27【学习笔记】【企业数据湖】五、基于Apache Sqoop的批量数据获取

一、数据湖背景中的数据获取1、数据获取层2、批量数据获取--技术路线图二、为什么使用sqoopsqoop是一款非常常用的用于向ApacheHadoop传输数据的工具1、sqoop简史最早由cloudera开发维护，分为1.X,2.X版本，区别很大2、sqoop的优势支持多种结构化数据 sqoop可以将etl中某些环境剔除，转移到hadoop中执行 sqoop可以以并行的方式传输数据帮助从主机中读取序列文件，并集成至目标系统又有可扩展机制，可以构建或拦截多种 c

2020-09-27 23:20:28 798

原创 2020-09-26【学习笔记】scala语言（三十） scala中的构造器（1）

scala中的构造器（1）scala学习仓库地址：https://gitee.com/qh123/scala_learn

2020-09-26 23:37:23 108

原创 2020-09-26【学习笔记】【企业数据湖】四、数据湖中的Lambda应用

一、Hadoop发行版本Hadoop主要有Cloudera、Hortonworks、MapR是商业发行版，Apache Hadoop是去开源版本。各发行版本都各具特色，如何选择也没有一个统一的标准。只能根据其特性，按需选择。二、影响企业大数据技术栈选择的因素1、技术能力2、是否易于部署和维护3、集成准备三、批处理层与数据处理1、namenode服务器2、secondarynamenode服务器3、yarn4、数据存储节点5、快速处理层6、flume用于数据

2020-09-26 22:38:29 140

原创 2020-09-25【学习笔记】scala语言（二十九） scala中的创建对象

scala中的创建对象scala学习仓库地址：https://gitee.com/qh123/scala_learn

2020-09-25 23:49:56 1744

原创 2020-09-25【学习笔记】【企业数据湖】三、Lambda架构：一种数据湖实现模式（3）

七、Lambda架构的劣势由于包含不同的层，Lambda架构被认为是复杂的。由于批处理层和快速处理层都是分布的，且实现机制不同，维护和支持起来相当困难要构架基于Lambda架构的数据湖，必须掌握大量的技术用开源的技术来实现Lambda架构并部署在云环境中并不容易Lambda所用到的组件还都不太成熟，还在快速的迭代当中持续集成/持续交付成为了一种平常的要求，但是Lambda中持续集成/.持续交付的工具也不成熟系统假设可能需要大量的硬件组件相同的工作要实现两次，批处理一次，流处

2020-09-25 23:35:23 158

原创 2020-09-24【学习笔记】scala语言（二十九） scala中的函数

scala中的函数scala学习仓库地址：https://gitee.com/qh123/scala_learn

2020-09-24 22:58:30 171

原创 2020-09-24【学习笔记】【企业数据湖】三、Lambda架构：一种数据湖实现模式（2）

四、Lambda架构的组件在数据湖背景中，Lambda机构的组件只构成了其中的一个功能模块，即Lambda层。Lambda层的主要模块：批处理层快速处理层服务层1、批处理层尽可能按数据最原始的格式来存储数据。由于数据不存在遗漏或转换，因此，可以在不同的阶段从不同的维度衍生出许多不同的用例。在批处理中主数据以不可变状态存储。可以被访问也可以被用于各种分析。数据是不可变的，不可被更新和删除。2、快速处理层也称为实时层，是为满足实时分析的需要。批处理层之间是比较耗时的，由于用户需

2020-09-24 22:36:23 194

原创 2020-09-23【学习笔记】scala语言（二十八） scala中的访问权限

scala中的访问权限scala学习仓库地址：https://gitee.com/qh123/scala_learn

2020-09-23 23:47:53 197

原创 2020-09-23【学习笔记】【企业数据湖】三、Lambda架构：一种数据湖实现模式（1）

一、什么是Lambda架构Lambda具有的要素：一套模式和标准。Lambda机构定义了一套面向大数据应用的模式和准则。更重要的是，它允许同时查询历史数据和实时增长的数据。并且获得期望的分析视图。处理历史数据和实时数据技术无关和通用性。Lambda架构是一种通用的模式，完全不依赖于任何技术，而且任何技术只要能满足需求，都可以在Lambda架构中应用。 Lambda架构清楚的吧责任划分到不同的功能木块/层中。它按照层来划分职责，完美地遵循了设计模式中的关注点分离原则领域无关。作为一种

2020-09-23 23:24:18 456

原创 2020-09-22【学习笔记】scala语言（二十七） scala中的属性

scala中的属性scala学习仓库地址：https://gitee.com/qh123/scala_learn

2020-09-22 23:28:19 114

原创 2020-09-22【学习笔记】【企业数据湖】一、数据湖概念概览（2）

四、数据湖与数据仓库的区别虽然数据湖在很多术后被认为与数据仓库是等同的，但是实际上数据湖与数据仓库代表着企业想达到的不同目标。两者的区别如下1、数据湖可以处理所有类型的数据，数据的类型依赖于原始数据格式。数据仓库只能处理结构化数据，这些数据需要与预先定义的模型吻合。2、数据湖拥有足够的计算能力用于处理和分析所有类型的数据，而数据仓库是将结构化数据转换为多维数据，或者报表。3、数据湖往往包含更多的信息，被访问的概率更高。数据仓库存放和存储长期数据，数据可以按需访问。五、数据湖的构.

2020-09-22 22:30:00 164

空空如也

空空如也