自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 Presto

Prestopresto是由一个Coordinator和多个worker组成的。Presto工作流程1)客户端提交查询,从Presto命令行提交到coordinator2)coordinator解析查询命令,分发到worker3)woker根据负责执行和处理数据4)woker处理的数据源叫catalog,包含schema和connector5)connector是用来适配数据源的适配...

2020-04-16 15:44:09 296

原创 SparkCore知识汇总

SparkCoreRDD 概述RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据抽象。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。RDD 的属性一组分区(Partition),即数据集的基本组成单位;一个计算每个分区的函数;RDD 之间的依赖关系;一个 Partitioner...

2020-03-31 15:43:06 273

原创 Spark概述

Spark什么是SparkSpark是一种基于内存的快速、通用、可扩展的大数据分析引擎。Spark 内置模块Spark Core: 实现Spark的基本功能,包含任务调度吗,内容管理,错误恢复,与存储系统交互等模块。Spark Core中还包含对弹性分布式数据集(简称RDD)的API定义。Spark SQL: 是spark用来操作结构化数据的程序包,通过SparkSQL,我们可以使用S...

2020-03-31 10:55:51 265

原创 Zookeeper基本知识点总结

Zookeeper入门概述Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。Zookeeper的工作机制Zookeeper = 文件系统+通知机制从设计模式来看Zookeeper是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,并且接受观察者的注册,一旦这些数据发生变化,Zookeeper就负责通知注册在zookeeper上...

2020-03-30 15:15:08 456

原创 Kafka基础考点

KafkaKafka 概述定义Kafka 是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域消息队列使用消息队列的好处:1) 解耦允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。2)可恢复性系统的一部分组件失效时,不会影响到整个系统。消息队列降低了进程间的耦合度,所以即使一个处理消息的进程挂掉,加入队列...

2020-03-30 12:59:08 389

原创 Flume知识点总结

FlumeFlume基础Flume是一个高可用的,高可靠的分布式日志采集传输系统。常用系统分布Flume 基础架构AgentAgent 是一个 JVM 进程,它以事件的形式将数据从源头送至目的。Agent由三部分组成,分别是Source,Channel和Sink,他在图中就代表中间的方块。SourceSorce是用来接收数据进入Agent中的组件。Source可以...

2020-03-29 16:48:31 482

原创 Hive学习

Hive常用知识点Hive入门Hive基础知识Hive的优缺点Hive架构原理Hive和数据库比较Hive安装HiveJDBC访问Hive常用交互命令Hive其他命令操作Hive常见属性配置查询后信息显示配置Hive运行日志信息配置Hive数据类型基本数据类型数据集合类型类型转化DDL数据定义创建数据库查询数据库修改数据库删除数据库创建表管理表(内部表)外部表管理表与外部表的互相转换分区表分区表注...

2020-03-29 14:12:16 606

原创 HBase常用知识点

HBaseHbase定义Hbase定义Hbase数据模型HBase 逻辑结构HBase 物理存储结构数据模型HBase 基本架构HBase Shell 操作表的操作HBase 进阶架构原理写流程MemStore Flush读流程StoreFile CompactionRegion SplitHBase APIHBaseAPI与 Hive 的集成HBase 与 Hive 的对比HBase 与 Hiv...

2020-03-28 15:16:19 935

原创 Hadoop之MapReduce

MapReduceMapReduceMapReduce概述MapReduce定义Mapreduce的优缺点Mapreduce的核心思想MapReduce编程规范Hadoop序列化MapReduceMapReduce概述MapReduce定义Mapreduce是一个分布式运算框架。核心功能是将用户编写的业务逻辑和自带默认组件整合成一个完整的分布式运算程序部署在hadoop上。Mapr...

2020-03-27 19:12:27 1379

原创 HDFS主要知识汇总

HDFSHDFS是一个分布式文件系统,适合一次写入多次读出的场景。HDFS的优缺点优点高容错性:数据自动保存多个副本,默认是3,且在某个副本丢失后可以自动恢复适合处理大数据:数据规模大,文件规模多可以构建在廉价机器上,通过多副本机制,提高可靠性。缺点不适合低延时数据访问,比如毫秒级别的存储数据,是做不到的。无法高效的对对大量小文件进行处理,所以可以采用特定的文件格式处理小文...

2020-03-26 18:38:28 555

原创 Hadoop基础介绍

Hadoop基础知识一.Hadoop组成:Hadoop1.x1.MapReducee(计算+资源调度)2.HDFS(存储)3.Common(辅助工具)Hadoop2.x1.MapReducee(计算)2.Yarn(计算)3.HDFS(存储)4.Common(辅助工具)HDFS架构概述NameNode:存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数,文...

2020-03-26 14:52:39 320

原创 JUC知识点总结

JUCjuc->java.util.concurrent:并发编程中的工具类三个包:concurrent,atomic,locks进程和线程进程:后台运行的一个程序,是操作系统分配资源的基本单位线程:进程内部使用进程分配到的资源的,实现的某些功能,就是线程。并发和并行并发:而并发是指两个或多个事件在同一时间间隔发生。并行:并行是指两个或者多个事件在同一时刻发生。...

2020-03-26 13:55:22 380

原创 JVM 学习大坑入门

JVMJVM是运行在操作系统上的。结构类加载器虚拟机自带的加载器启动类加载器(BootStrap) C++ :java 打印出来为null -> 打印 .parent 会出空指针扩展类加载器(Extension)JAVA -> 打印 .parent 出来为null应用程序类加载器(AppClassLoader)->java也叫系统类加载器,加载当前应用的clas...

2020-03-22 14:02:50 878

原创 机器学习之K-Means算法

K均值算法K均值算法和KNN算法在逻辑上有些相似,但是K均值算法本身属于无监督学习算法中的聚类算法,并没有想KNN算法本身存在一个现成的训练集(分好类的点),因此需要依靠随机产生的质心,通过迭代计算周围的点与每个质心之间的距离来对周围的点进行聚类。1.算法流程选取K个质心->将所有点按照距离质心的距离远近分到质心所属的类型->计算每个类型的平均值作为新的质心->重复之前的...

2020-03-19 17:16:18 179

原创 机器学习之监督算法(一)

机器学习监督算法机器学习常用算法一.回归算法1.最小二乘法1).定义2).解法3).代码实现2.梯度下降法求解多元线性回归1).例子——参考西瓜书2).梯度下降算式推导过程3).代码实现二.分类算法1.KNN(K近邻算法)1)概念2)距离3)算法步骤4)代码实现2.逻辑斯蒂回归1)作用场景2)函数选择3)案例4)判断逻辑5)损失函数3.决策树1)熵2)条件熵3)信息增益4)常见算法机器学习常用算...

2020-03-19 16:44:43 2651

原创 机器学习简单入门

机器学习目录机器学习简述一.机器学习的分类1.有监督学习简述2.无监督学习简述3.强化学习简述二.模型评估策略1.模型评估2.模型选择3.模型验证三.监督学习1.监督学习三要素模型:总结数据的内部规律,用数学语言描述策略:选取最优模型的评价标准算法:选取最优模型的具体方法2.监督学习实现步骤3.分类问题4.回归问题四.无监督学习1.聚类1)K均值算法2)基于密度的聚类3)最大期望聚类2.降维1)浅...

2020-03-19 15:00:11 1220

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除