
大数据
大数据
强化学习曾小健
"强化学习曾小健2、强化学习曾小健3、我是机器人曾小健具身"都是该号副号。CSDN全站80强博客、总近480w+浏览。AI生成式技术,计算机博士;llama3、Baichuan2、Qwen、GLM-4等等项目贡献人(ArtificialZeng)。这个博客的主题主要是强化学习技术、AI生成式技术、大模型多模态技术、机器人具身智能控制技术、机器/深度学习论文或科研前沿、GNN图神经网络、神经网络,包括人工神经网络和生物神经网络,及其大脑演化,智能和认知的产生,通用人工智能;
展开
-
pyspark启动参数
/srv/udp/2.0.0.0/spark/bin/spark-submit --name "gbdt" --master yarn --driver-cores 1 --driver-memory 2G --num-executors 3 --executor-cores 8 --executor-memory 10G --conf spark.default.parallelism=1000 --conf spark.broadcast.blockSize=50m pyspark原创 2022-09-15 11:12:57 · 729 阅读 · 0 评论 -
从0到1带你入门RabbitMQ
从原理到实践,从0到1带你入门RabbitMQ,需要学习RabbitMQ的同学,欢迎来戳~~常见的消息队列很多,主要包括RabbitMQ、Kafka、RocketMQ和ActiveMQ。这篇文章只讲RabbitMQ,属于基础入门篇。消息队列消息队列模式消息队列目前主要2种模式,分别为“点对点模式”和“发布/订阅模式”。点对点模式一个具体的消息只能由一个消费者消费。多个生产者可以向同一个消息队列发送消息;但是,一个消息在被一个消息者处理的时候,这个消息在队列上会...原创 2022-05-07 16:09:00 · 1007 阅读 · 0 评论 -
Spark MLlib 梯度提升回归树模型(范例)
"""Gradient Boosted Trees Regression Example."""from pyspark import SparkContext# $example on$from pyspark.mllib.tree import GradientBoostedTrees, GradientBoostedTreesModelfrom pyspark.mllib.util import MLUtils# $example off$if __name__ == "__mai.原创 2022-03-30 15:37:15 · 3092 阅读 · 0 评论 -
OLTP在线事务处理
On-Line Transaction Processing在线事务处理过程(OLTP),也称为面向交易的处理过程,其基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,是对用户操作快速响应的方式之一。...原创 2021-12-20 11:33:54 · 580 阅读 · 0 评论 -
Impala 的特点
2、Impala的特点impalak快的原因:1、2、3、61、基于内存进行计算,能够对PB级数据进行交互式实时查询、分析2、无需转换为MR,直接读取HDFS及Hbase数据 ,从而大大降低了延迟。Impala没有MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分组成3、C++编写,LLVM统一编译运行在底层对硬件进行优化, LLVM:编原创 2021-12-17 10:25:16 · 2548 阅读 · 0 评论 -
Lambda架构和Kappa架构
与 Lambda 架构不同的是,Kappa 架构去掉了批处理层这一体系结构,而只保留了速度层。你只需要在业务逻辑改变又或者是代码更改的时候进行数据的重新处理。在讲述完 Kappa 架构之后,我想强调一下,Kappa 架构也是有着它自身的不足的。因为 Kappa 架构只保留了速度层而缺少批处理层,在速度层上处理大规模数据可能会有数据更新出错的情况发生,这就需要我们花费更多的时间在处理这些错误异常上面。还有一点,Kappa 架构的批处理和流处理都放在了速度层上,这导致了这种架构是使用同一套代码来处理原创 2021-12-16 14:42:15 · 1733 阅读 · 0 评论 -
Python全局解释锁
我们所说的Python全局解释锁(GIL)简单来说就是一个互斥体(或者说锁),这样的机制只允许一个线程来控制Python解释器。这就意味着在任何一个时间点只有一个线程处于执行状态。GIL对执行单线程任务的程序员们来说并没什么显著影响,但是它成为了计算密集型(CPU-bound)和多线程任务的性能瓶颈。由于GIL即使在拥有多个CPU核的多线程框架下都只允许一次运行一个线程,所以在Python众多功能中其声誉可谓是“臭名昭著”。在这篇文章中,你将了解到GIL是如何影响到你的Python程序性能的以及原创 2021-09-23 21:57:49 · 511 阅读 · 0 评论 -
mapjoin的使用方法以及注意事项
mapjoin的简介MAPJION会把小表全部加载到内存中,在map阶段直接拿另外一个表的数据和内存中表数据做匹配,由于在map端是进行了join操作,省去了reduce运行的时间,算是hive中的一种优化mapjoin的使用方法例如:select /*+ mapjoin(t)*/ f.a,f.b from A f join B t on f.a=t.a 1前提b表是一张小表,默认25m的表是小表注意事项使用mapjoin时,一次性加载到内存中的表最多是8张,如果超过8张小表,...原创 2021-09-23 21:55:32 · 13369 阅读 · 1 评论 -
2021-09-15频繁项集的评估标准
1.频繁项集的评估标准 什么样的数据才是频繁项集呢?也许你会说,这还不简单,肉眼一扫,一起出现次数多的数据集就是频繁项集吗!的确,这也没有说错,但是有两个问题,第一是当数据量非常大的时候,我们没法直接肉眼发现频繁项集,这催生了关联规则挖掘的算法,比如Apriori, PrefixSpan, CBA。第二是我们缺乏一个频繁项集的标准。比如10条记录,里面A和B同时出现了三次,那么我们能不能说A和B一起构成频繁项集呢?因此我们需要一个评估频繁项集的标准。 常用的频繁项集的评估标准有支持度,.原创 2021-09-15 16:30:19 · 973 阅读 · 0 评论 -
2021-09-15
频繁项集生成根据支持度的定义,得到如下的先验定理:定理1:如果一个项集是频繁的,那么其所有的子集(subsets)也一定是频繁的。这个比较容易证明,因为某项集的子集的支持度一定不小于该项集。定理2:如果一个项集是非频繁的,那么其所有的超集(supersets)也一定是非频繁的。定理2是上一条定理的逆反定理。根据定理2,可以对项集树进行如下剪枝:...原创 2021-09-15 10:13:03 · 205 阅读 · 0 评论 -
2021-09-14Apriori 算法是基于关联规则的高效数 据挖掘算法
数据挖掘方法主要包括关联规则挖掘、数据分类挖 掘、聚类挖掘等,Apriori 算法是基于关联规则的高效数 据挖掘算法,为便于后续开展 Apriori 算法,分析关联规 则相关定义如下: 设所需挖掘项集合为 I = { i1 , i2 ,⋯, im },读者借阅数 据库中数据集合 S为挖掘任务相关,事务 T为项的集合, 设 A ⊆ I。所有事务均具有一个 TID 标志符号,当 A 为其 中一个项集时,A 属于事务 T 且仅满足 A ⊆ I 时,关联规 则为蕴含式 A ⇒ B,且满足 A ⋂ B =∅。 置信度原创 2021-09-14 11:39:10 · 324 阅读 · 0 评论 -
基于 Spark推荐 系统应用 现 状
原创 2021-09-14 11:03:35 · 281 阅读 · 0 评论 -
2021-09-09 Hadoop Hive Spark概览
hadoop首先当然是hadoop,不过hadoop不是一门技术,而是一个大数据框架。它的logo是一只黄色的小象,据说是这个项目的创建者用女儿的玩具命名的。经过了很多年的发展,现在hadoop框架已经非常成熟,衍生出了一个庞大的家族。有多庞大呢,我在google里给大家找了一张图,大家可以看看感受一下,这里面有多少是自己知道的,有多少没听说过。当然对于算法工程师来说,hadoop家族并不需要全部了解,只需要着重关注几个就可以了。hdfs首先是hdfs,hdfs是hadoop框架转载 2021-09-09 17:08:38 · 408 阅读 · 0 评论 -
2021-09-06单纯形计算方法(
单纯形计算方法(Simplex Method)是先求出一个初始基可行解并判断它是否最优,若不是最优,再换一个基可行解并判断,直到得出最优解或判断出问题无最优解。它是一种逐步逼近最优解的迭代方法。当系数矩阵A中可以观察得到一个可行基时(通常是一个单位矩阵或m个线性无关的单位向量组成的矩阵),则可以通过解线性方程组求得基本可行解。5.1几何意义在标准形中,有m个约束条件(不包括非负约束),n个决策变量,且(n>=m)。首先,选取m个基变量 ,基变量对应约束系数矩阵的列向量线性无关。通过矩阵的线性变换原创 2021-09-06 15:27:01 · 313 阅读 · 0 评论 -
2021-09-02spark streaming
一、spark streaming和storm有何区别?一个实时毫秒,一个准实时亚秒,不过storm的吞吐率比较低。二、spark有哪些组件?Master:管理集群和节点,不参与计算。Worker:计算节点,进程本身不参与计算,和master汇报。Driver:运行程序的main方法,创建sparkcontext对象。Spark context:控制整个application的生命周期,包括DAGSchedular和TaskSchedular等组件。Client:用户提交程序原创 2021-09-02 15:11:18 · 258 阅读 · 0 评论 -
2021-09-02编写一个 SQL 查询,获取 Employee 表中第二高的薪水(Salary) 。
编写一个 SQL 查询,获取 Employee表中第二高的薪水(Salary)。+----+--------+| Id | Salary |+----+--------+| 1 | 100 || 2 | 200 || 3 | 300 |+----+--------+例如上述Employee表,SQL查询应该返回200 作为第二高的薪水。如果不存在第二高的薪水,那么查询应返回 null。+---------------------+| SecondHi...原创 2021-09-02 14:11:18 · 872 阅读 · 0 评论 -
2021-09-02Hive 未被external修饰的是内部表,被external修饰的是外部表
hive 内部表和外部表的区别? hive 是如何实现分区的? Hive 有哪些方式保存元数据,各有哪些优缺点? hive中order by、distribute by、sort by和cluster by的区别和联系 hive 中的压缩格式 RCFile、 TextFile、 SequenceFile 各有什么区别? hive 如何优化?2|0hive 内部表和外部表的区别?未被external修饰的是内部表(managed table),被external修饰的为外部表(external原创 2021-09-02 11:47:29 · 368 阅读 · 0 评论 -
Redis安装
cp redis-3.0.0.rar.gz /usr/local将redis-3.0.0.tar.gz拷贝到/usr/local下cp redis-3.0.0.rar.gz /usr/local解压源码tar -zxvf redis-3.0.0.tar.gz 进入解压后的目录进行编译cd /usr/local/redis-3.0.0安装到指定目录 如 /usr/local/redismake PREFIX=/usr/local/redis in.原创 2021-08-31 18:16:23 · 100 阅读 · 0 评论 -
Hadoop运行模式
2、Hadoop运行模式:单机版:无需任何守护进程,所有的程序都运行在同一个JVM上执行。在独立模式下调试MR程序非常高效方便。所以一般该模式主要是在学习或者开发阶段调试使用 。伪分布式模式:Hadoop守护进程运行在本地机器上,模拟一个小规模的集群,换句话说,可以配置一台机器的Hadoop集群,伪分布式是完全分布式的一个特例。完全分布式模式:Hadoop守护进程运行在一个集群上。3、Hadoop生态圈的组件并做简要描述1)Zookeeper:是一个开源的分布式应用程序协调服务,基于zookeeper原创 2021-08-31 11:25:43 · 434 阅读 · 0 评论 -
2021-08-31Flink 中的核心概念和基础考察
第一部分:Flink 中的核心概念和基础考察一、 简单介绍一下 FlinkFlink 是一个框架和分布式流处理引擎,用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源管理等核心功能。Flink提供了诸多高抽象层的API以便用户编写分布式任务: DataSet API, 对静态数据进行批处理操作,将静态数据抽象成分布式的数据集,用户可以方便地使用Flink提供的各种操作符对分布式数据集进行处理,支持Java、Scala和Python。 Data转载 2021-08-31 11:16:22 · 117 阅读 · 0 评论 -
lambda架构
查询的本质查询是个什么概念?Marz给查询如下一个简单的定义:Query = Function(All Data)该等式的含义是:查询是应用于数据集上的函数。该定义看似简单,却几乎囊括了数据库和数据系统的所有领域:RDBMS、索引、OLAP、OLTP、MapReduce、EFL、分布式文件系统、NoSQL等都可以用这个等式来表示。让我们进一步深入看一下函数的特性,从而挖掘函数自身的特点来执行查询。 有一类称为Monoid特性的函数应用非常广泛。Monoid的概念来源于范畴学(Catego原创 2021-08-20 15:23:14 · 216 阅读 · 0 评论