- 博客(31)
- 收藏
- 关注
原创 RPC(Remote Procedure Call)
RPC前言一、RPC1.1 RPC定义1.2 RPC调用的过程二、序列化和反序列化三、RPC 和 HTTP的区别3.1 相同点3.2 不同点3.3 如何选择总结前言本文主要介绍有关RPC-远程过程调用的相关知识以及RPC和HTTP的区别。一、RPC1.1 RPC定义 RPC中文名称为远程过程调用,他是一种通过网络从远程计算机程序上请求服务,从而不需要了解底层网络技术的协议。主要特点如下:(1)RPC是从一台阶计算机上通过参数传递的方式调用另一台机器上的方法并得到返回的结果;(2)屏蔽底层
2021-12-22 10:38:10 550
原创 Spark 之 SparkSQL
SparkSQL前言Spark 知识系列文章一、SparkSQL 概述1.1 DataFrame1.2 DataSet1.3 RDD、DataFrame和DataSet三者的关系二、SparkSQL的编程2.1 DataFrame2.1.1 通过Spark的数据源进行创建2.1.2 RDD转换为DataFrame2.1.2.1 手动转换2.1.2.2 通过样例类2.1.3 将DataFrame转化为RDD2.2 DataSet2.2.1 通过样例类创建2.2.2 RDD转换为DataSet2.2.3 Dat
2021-12-02 23:26:25 1049
原创 Spark 之Spark三大数据结构
Spark前言Spark 知识系列文章一、RDD弹性分布式数据集1.1 RDD定义以及框架1.2 特点1.3 创建RDD1.4 算子1.5 RDD依赖关系1.5.1 窄依赖1.5.2 宽依赖1.6 RDD任务划分1.7 RDD数据分区器1.7.1 Hash分区1.7.2 Ranger分区(很少使用)二、 累加器2.1 运用累加器求数据之和三、 广播变量:分布式只读共享变量 - 调优策略总结前言本文介绍有关Spark的三大数据结构:RDD、广播变量、累加器。Spark 知识系列文章 此处罗
2021-12-02 23:25:50 1855 1
原创 Spark 之 RDD转换算子
RDD转换算子前言Spark 知识系列文章一、RDD的转换算子1.1 Value类型1.1.1 map(func)案例1.1.2 mapPartitions(func) 案例1.1.3 Map 和 MapPartition的区别1.1.4 flatMap(func) 案例1.1.5 glom案例1.1.6 groupBy(func)案例1.1.7 sample(withReplacement, fraction, seed) 案例1.1.8 distinct([numTasks])) 案例1.1.9 coa
2021-12-02 23:25:33 806
原创 Spark 之 RDD行动算子
RDD行动算子前言Spark 知识系列文章一、 RDD行动算子1.1 reduce(func)案例1.2 collect()案例1.3 count()案例1.4 first()案例1.5 take(n)案例1.6 takeOrdered(n)案例1.7 aggregate案例1.8 fold(num)(func)案例1.9 saveAsTextFile(path)1.10 saveAsSequenceFile(path)1.11 saveAsObjectFile(path)1.12 countByKey(
2021-12-02 23:25:15 1594
原创 Spark 之 Spark框架及部署
Spark(一)前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下(示例):import numpy as npimp
2021-12-02 23:24:57 975
原创 Spark 之 SparkStreaming
SparkStreaming前言Spark 知识系列文章一、Spark Streaming1.1 Spark Streaming 架构1.2 DStream 入门案例(Wordcount)1.3 Dstream转换二、窗口函数总结前言本文介绍了有关SparkStreaming的相关知识,包括SparkStreaming架构、SparkStreaming实现WordCount案例、窗口函数等。Spark 知识系列文章 此处罗列了有关Spark相关知识的其他文章,有需要的可以进行点击查阅。
2021-12-02 23:24:33 1024
原创 大数据之MapReduce
MapReduce前言一、MapTask工作机制1.1 MapTask处理流程二、ReduceTask 工作机制2.1 ReduceTask处理流程2.2 ReduceTask注意事项三、Shuffle机制3.1 Shuffle阶段的位置3.2 Shuffle处理流程四、MapReduce中的排序4.1 MapTask中的排序4.2 ReduceTask中的排序五、 Combiner总结前言 本文简单介绍大数据框架中的MapReduce,从MapTask工作机制、ReduceTask工作机制、Shu
2021-12-01 18:15:10 355
原创 流聚类之Varying density method for data stream clustering
Varying density method for data stream clustering前言一、算法优化策略总结前言 在前文流聚类之DenStream中介绍了算法DenStream的工作流程,本文的算法是在该算法上作出的优化改进,本文简单介绍其优化手段。一、算法优化策略 提出了一种新的剪枝策略,以往的基于密度的数据流聚类的算法都是通过检测o微簇的权重是否低于阈值或者p微簇是否长时间没有数据点的加入导致微簇的权重降低; 该算法通过计算每一类微簇等待数据点的时间,如果微簇平均等
2021-11-25 16:55:13 182
原创 流聚类之Finding Multi-Density Clusters in Non-Stationary Data Streams Using an Ant Colony with Adaptive
Finding Multi-Density Clusters in Non-Stationary Data Streams Using an Ant Colony with Adaptive前言一、算法的切入点二、算法步骤2.1 创建初始集群2.2 合并集群总结前言 本文简单介绍算法“Finding Multi-Density Clusters in Non-Stationary Data Streams Using an Ant Colony with Adaptive”,从算法的切入点以及算法
2021-11-25 16:49:12 207
原创 流聚类之StreamSW: A density-based approach for clustering data streams over sliding windows
StreamSW前言一、StreamSW总结前言 在之前的文章流聚类之DStream和流聚类之DenStream中已经介绍了算法DStream算法以及DenStream算法工作流程,本文的算法StreamSW是基于这两种算法进行的改进,在此只介绍该算法的不同之处。一、StreamSW StreamSW结合了算法DenStream以及DStream; 在DenStream算法中,每当新到来一个数据点,首先将其合并到p微簇中,若没有合适的p微簇,将其合并到o微簇中;若o微簇达到了成为p微簇的
2021-11-25 16:33:43 430
原创 流聚类之 EDDS: An Enhanced Density-based Method for Clustering Data Streams
EDDS前言一、EDDS总结前言 在流聚类之DenStream中我们已经介绍了DenStream算法的工作流程,EDDS算法是基于DenStream算法的,所以在此简单介绍了算法EDDS的不同之处。一、EDDS1、 将上一次迭代产生的异常值放入到传入的数据块中,以生成新的集群;2、 利用E/DBSCAN算法对新的数据块进行聚类,发现新的集群以及候选异常值;3、 将由E/DBSCAN算法产生的临时集群与先前的集群进行合并;4、 对新集群和现有的集群进行合并,并导出新的异常值以及集群;5、
2021-11-25 16:24:53 157
原创 流聚类之DGStream
DGStream前言一、DGStream算法流程1.1 在线阶段1.2 离线阶段总结前言 在 流聚类之DStream 中已经介绍了DStream算法的工作流程,本文要介绍的算法DGStream是基于DStream算法做的改进,所以在此只介绍DGStream算法的不同之处。一、DGStream算法流程1.1 在线阶段1、 对数据流中的数据进行标准化,并随机选择一些有代表性的点读入;2、 构建密度网格的SP树,并通过对树叶进行聚类来初始化聚类;3、 更新网格的特征向量,根据特征向量将网格分
2021-11-25 16:14:23 578
原创 流聚类之DStream
DStream前言一、DStream 算法流程1.1 在线阶段1.2 离线阶段1.3 调整网格密度总结前言 本文介绍了数据流聚类中的DStream算法,由于在之前的 流聚类之CluStream 以及 流聚类之DenStream 中介绍了流聚类的具体过程和思想,本文只介绍DStream算法的不同之处。一、DStream 算法流程1.1 在线阶段 对于一个数据流,在每一个时间戳中,在线组件不断读取新的数据记录,将多维数据放到多维空间中对应的离散密度网格中,并更新密度网格的特征向量。1.2 离
2021-11-25 16:05:09 925
原创 流聚类之DenStream
DenStream 前言一、DenStream 算法提出的目的二、两阶段2.1 在线阶段2.2 离线阶段总结前言本文简单总结了有关流聚类算法DenStream的相关知识,从算法提出的目的以及两阶段过程进行阐述。一、DenStream 算法提出的目的对Clustream算法进行改进,引入了时间衰减函数来对不同时间的数据点进行加权;二、两阶段2.1 在线阶段➢维护P微簇以及O微簇(存放在一个单独的内存空间中-离群值缓冲区);➢首先根据DBSCAN算法初始化生成P微簇,当新的数据点到来时,试图
2021-11-25 15:50:47 1892
原创 流聚类之蚁群流聚类
蚁群流聚类前言一、蚁群流聚类1.1 关键信息存储1.2 形成集群的过程1.3 集群的合并以及删除:总结前言由于在之前的流聚类之CluStream以及流聚类之DenStream中介绍了流聚类的具体过程,本文就简单总结蚁群流聚类的不同之处提示:以下是本篇文章正文内容,下面案例可供参考一、蚁群流聚类1.1 关键信息存储 不同于CluStream算法的五个维度,蚁群流聚类算法通过三个组件来描述一个微集群:包含的数据点数、每个维度的线性和、每个维度的平方和。1.2 形成集群的过程 将第一个数据
2021-11-25 15:48:06 254
原创 流聚类算法之CluStream
CluStream前言一、CluStream算法的切入点二、CluStream算法核心思想三、CluStream算法的两阶段3.1 在线阶段3.2 离线阶段CluStream算法的缺点总结前言本文简要介绍了数据流聚类算法中的CluStream算法,从算法的切入点、算法核心思想、算法的两阶段流程以及缺点进行阐述。一、CluStream算法的切入点(1)可以有效的存储在连续数据流中的摘要信息的性质是什么?(2)摘要信息什么时候被存储在磁盘上?(3)如何使用周期的数据在用户指定的时间范围内提供聚类
2021-11-25 15:31:07 2620 1
原创 大数据之Presto
Presto前言一、Presto概念二、Presto架构三、特点3.1 优点3.2 缺点四、注意事项总结前言本文简单介绍了大数据中Presto的相关知识,包括Presto的基本概念、架构、特点以及使用Presto的注意事项一、Presto概念 Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。 注意:虽然Presto可以解析SQL,但它不是一个标准的数据库。不是MySQL、PostgreSQL或者Oracle的代替品,也不能用来处理在线事务(OL
2021-11-23 15:07:54 2549
原创 大数据之Redis(上)
Redis(上)前言一、Redis为什么快二、BIO、NIO、AIO三、Redis数据类型3.1 key3.2 String3.3 List3.3.1 Redis List的特点3.3.2 相关操作3.4 Set3.5 Hash3.5.1 数据结构3.5.2 相关操作3.6 Zset总结前言Redis是基于内存的开源的key-value存储系统,本文主要介绍有关Redis的基本概念以及数据类型,在大数据之Redis(下)中介绍Redis事务、持久化、主从复制、哨兵机制以及集群的概念。一、Redis
2021-11-23 10:34:44 1602
原创 大数据之Redis(下)
Redis(下)前言一、Redis事务1.1 Redis事务的特点及作用1.2 Redis事务的错误处理二、Redis持久化2.1.RDB2.1.1 RDB定义2.1.2 RDB备份流程2.1.3 特点2.1.3.1 优点2.1.3.2 缺点2.2 AOF2.2.1 AOF定义2.2.2 AOF 同步频率设置2.2.3 AOF 重写2.2.4 AOF 特点2.2.4.1 优点2.2.4.2 缺点三、Redis主从复制3.1 定义3.2 作用3.3 相关问题3.4 复制原理3.5 主从从机制四、哨兵机制4.1
2021-11-23 10:34:19 1140
原创 大数据之Kafka(上)
Kafka(上)前言一、消息队列二、Kafka定义三、Kafka架构详解四、Kafka的特点4.1 Kafka的写入方式4.2 Kafka的零复制4.3 Kafka顺写日志、分段日志总结前言本文主要介绍Kafka的基本概念,包括:Kakfa的定义、Kafka的架构、Kafka的特点等。在 大数据之Kafka(下)中会介绍有关Kafka的数据生产、消费以及分区的相关知识。一、消息队列(1)点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除) 点对点模型通常是一个基于拉取或者轮询的消息
2021-11-22 22:00:23 236
原创 大数据之Kafka(下)
Kafka(下)前言一、kafka生产数据的应答机制二、kafka生产数据三、kafka的数据消费3.1 kafka的数据消费3.2 kafka的再平衡四、kafka消费方式五、kafka中副本的数据存储机制六、kafka 分区6.1 分区原因6.2 分区选择原则6.3 分区消费策略6.3.1 Range 范围分区策略6.3.2 RoundRobin 分区策略总结前言在 大数据之Kafka(上)中介绍了Kafka的基本概念,包括:Kakfa的定义、Kafka的架构、Kafka的特点等。本文会介绍有关K
2021-11-22 22:00:00 306
原创 大数据之Flume
Flume前言一、Flume作用二、Flume架构2.1 Agent2.1.1 Source2.1.2 Channel2.1.3 Sink三、官方方法启动Flume四、Flume事务4.1 put事务4.2 take 事务五、单数据源发送到不同目的地六、Flume采集数据会丢失吗?总结前言Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。本文主要介绍Flume的相关知识一、Flume作用 实时读取服务器本地磁
2021-11-22 19:04:59 295
原创 大数据之Flink(下)
Flink(下)前言一、split 和 select 算子二、Connect和 CoMap 算子三、union 算子四、WordCount案例4.1 离线数据4.2 在线数据总结前言在 大数据之Flink(上)中我们介绍了Flink的特点、架构、两段式提交以及数据流等相关知识,本文介绍Flink独有的算子以及用Flink实现WordCount案例一、split 和 select 算子split算子根据某些特征把一个DataStream拆分成两个或者多个DataStream。Select算子
2021-11-22 17:04:54 266
原创 大数据之Flink (上)
文章目录前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下(示例):import numpy as npimport
2021-11-22 17:04:21 178
原创 大数据之ClickHouse(上)
ClickHouse(上)前言一、列式存储的优点二、ClickHouse瓶颈三、数据类型四、表引擎4.1 MergeTree4.1.1.分区4.1.2.主键4.1.3.order by(必选字段)4.1.4.TTL4.2 ReplacingMergeTree4.3 SummingMergeTree总结前言 本文介绍了大数据中使用的一种数据库ClickHouse,它不同于传统的mysql数据库,ClickHouse是列式存储数据库(DBMS),主要用于在线分析查询处理(OLAP),同样的HBASE也是
2021-11-22 15:29:42 854
原创 大数据之ClickHouse(下)
ClickHouse(下)前言一、SQL操作1.1 Update/delete(不建议使用)- 不支持事务1.2 GROUP BY 操作1.3 Alter 操作1.4 建立同表结构的表1.5 物化视图二、ClickHouse空值存储三、 数据一致性四、 ClickHouse的Join操作4.1 查询放大五、ClickHouse 注意事项总结前言 本文介绍了大数据中使用的一种数据库ClickHouse,详细介绍了ClickHouse中的SQL操作、语法指令以及相关配置等信息,如果想了解ClickHou
2021-11-22 15:28:51 1192
原创 决策树(下)
决策树一、剪枝处理1.预剪枝2.后剪枝二、连续值与缺失值的处理1.连续值的处理2.缺失值的处理总结参考一、剪枝处理在机器学习中,经常会利用训练集去训练模型来应对未知的实例,但是在模型的训练过程中每个人都会遇到“过拟合”的问题,那么什么是过拟合?由于模型是在训练集上不断地训练生成的,可能会出现这个模型把训练集学习的太好了,在识别新出现的实例时,会因为对训练集中某些属性的过度学习导致对实例的判断失误,从而降低了模型的泛化能力;而对决策树进行剪枝处理,可以很好的解决这种“过拟合”的现象。1.预剪枝预剪
2021-04-10 11:23:47 198
原创 决策树(上)
决策树前言一、简单生成决策树二、节点划分1.信息增益2.增益率3.基尼指数总结参考前言决策树是一类常见的机器学习的方法,以二分类任务为例,我们希望从已知的训练集中训练出一个模型,使得该模型可以对新出现的实例进行分类;那么决策树的决策体现在哪里呢?首先考虑我们人在面对一些问题的时候,就会思考这样的问题,“这个问题是属于哪一方面的问题?”若属于A方面,则解决方法是一条路线,属于B则是另外一条路线,这是我们人在面临问题的时候很自然的一种处理机制,而决策树恰恰是根据人的思维习惯诞生的,在处理分类的问题的时候
2021-04-10 11:23:07 210
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人