自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(60)
  • 收藏
  • 关注

原创 hadoop集群部署

ssh-keygen用来生成RSA类型的密钥以及管理该密钥,参数“-t”用于指定要创建的SSH密钥的类型为RSA。ssh-copy-id -i /root/.ssh/id_rsa.pub master//依次输入yes,123456(root用户的密码)7、在各节点(环境变量)/etc/profile添加JAVA_HOME和Hadoop路径。使用命令“vim /etc/ntp.conf”打开/etc/ntp.conf文件,//所有节点都要向自己和其他节点发送密钥,实现互相登录免密。

2022-09-13 22:53:58 765

原创 大佬们,DB2数据库迁移到达梦数据库,存储过程有没有什么好办法迁移过来?

1111。

2024-01-24 20:37:39 453 1

原创 MySQL存储过程生成某些年份的具体日期以及判断具体某一天是否为周末

【代码】MySQL存储过程生成某些年份的具体日期以及判断具体某一天是否为周末。

2023-10-26 15:11:52 252

原创 华为mate60的发布代表着什么?有什么意义?

对于华为本身来说,Mate60的发布意味着其在国内市场的竞争力再次提升,进一步巩固了其市场地位。同时,华为Mate系列作为其高端产品线,代表着华为的最高水平和最新技术,Mate60的发布也延续了华为一贯的产品品质和技术创新,提升了华为的品牌价值和市场竞争力。该产品预计将引入更强大的处理器、更高分辨率的屏幕、更强大的摄像头等前沿技术,进一步巩固华为在技术领域的领先地位。总之,华为Mate60在处理器、内存、存储、屏幕、摄像头和电池等方面都具备出色的性能和硬件配置,能够提供出色的使用体验。

2023-09-05 09:39:27 4466

原创 ChatGPT和文心一言的优缺点比较

ChatGPT和文心一言都是自然语言生成技术的代表,下面是它们的优缺点比较:

2023-09-01 08:49:46 5380 1

原创 pl/sql

-声明一个自定义记录类型的变量。--定义一个记录类型。

2023-08-31 10:22:08 136

原创 解释区块链技术的应用场景和优势

金融交易:区块链可以用来记录交易信息,从而实现去中心化的金融交易。食品追溯:区块链可以用来记录食品的生产、加工、运输和销售等信息,从而实现食品追溯和食品安全管理。不可篡改性:一旦交易信息被记录到区块链中,就无法被篡改和删除,因此交易信息的真实性得到了保证。医疗保健:区块链可以用来记录患者的医疗数据,从而实现去中心化的医疗信息管理和共享。去中心化:区块链是去中心化的分布式数据库,没有单一的控制节点,因此不容易被篡改。物联网:区块链可以用来记录物联网设备之间的交互信息,从而实现去中心化的物联网。

2023-08-30 11:20:45 374

原创 电商数仓项目需求及架构设计

用户行为数据主要来源于前端埋点,数据以文件的形式存放,通过Flume将日志文件采集到Kafka(避免直接采集,防止数据量过大,消峰),再通过Flume将数据同步到集群,通过HIVE On Spark对数据进行存储、清洗、转换等操作,将数据分为ODS数据原始层、DWD数据明细层、DWS数据服务层、DWT数据主题层、ADS数据应用层。数据量大小、业务需求、行内经验、技术成熟度、开发维护成本、总成本预算。QuickBI(离线)、DATAV(实时)(阿里产品)MySQL(ADS层)、HDFS、HBase、

2023-08-30 11:09:51 1164

原创 讲解人工智能在现代科技中的应用和未来发展趋势

人工智能是现代科技中的一个重要分支,其应用涵盖了各个领域,如医疗、金融、制造业、交通运输、安防、教育、游戏等。未来,随着人工智能技术的进一步发展,其在决策和规划方面的应用将会更加广泛和深入。深度学习技术是现代人工智能的核心技术,未来随着硬件的升级和算法的进一步优化,深度学习技术将会更加成熟和普及。总之,人工智能在现代科技中的应用和未来发展趋势是多方面的,其将会在很多领域中发挥重要的作用,为我们的生活和工作带来更多的便利和创新。未来,人工智能将会深入到自然语言处理技术的研究中,实现更加自然的语言交互。

2023-08-30 08:32:11 221

原创 三种事实表

粒度是一个订单一行数据,创建订单时间,付款时间,发货时间,收货时间分别作为一个字段,便于计算不同业务过程的时间间隔。事实表作为数据仓库维度建模的核心,紧紧围绕着业务过程来设计,通过获取描述业务过程的度量来表达业务过程,包含了引用的维度和与业务过程有关的度量。订单支付金额和订单票数,两个事实的粒度为”订单级“,属于上一层订单级数据,与”票级“事实表的粒度不一致,且不仅能进行汇总;如大于、小于、等于等;应用0代替NULL;也称原子事实表,描述业务过程,跟踪控件或时间上某点的度量事件,保存的是最原子的数据;

2023-08-29 17:12:39 173

原创 解释 Git 的基本概念和使用方式。

远程管理:使用git remote命令添加、删除、查看远程仓库,使用git push命令将本地代码推送到远程仓库,使用git pull命令从远程仓库拉取代码。分支管理:使用git branch命令来创建、删除、查看分支,使用git checkout命令切换分支。仓库(Repository):Git中存储代码的地方,包含了代码的历史记录和分支。提交(Commit):将代码修改记录到Git仓库中的操作。合并(Merge):将两个分支的修改合并为一个新的分支。克隆:使用git clone命令克隆一个已有的仓库。

2023-08-29 09:39:20 625

原创 介绍 Docker 的基本概念和优势,以及在应用程序开发中的实际应用

Docker 是一个开源的容器化平台,可以让开发者将应用程序和其所依赖的组件(如库、运行环境)打包成一个可移植、自包含的容器。可移植性:Docker 容器可以在任何支持 Docker 的环境中运行,保证了应用程序的可移植性。仓库(Repository):仓库是存放镜像的地方,可以是公共云仓库(如 Docker Hub),也可以是私有仓库。快速部署:Docker 容器可以快速部署,可以在几秒钟内启动或停止一个容器,可以通过自动化工具进行管理和扩容。在应用程序开发中,Docker 的实际应用有很多。

2023-08-29 09:25:11 518

原创 机器学习中的 K-均值聚类算法及其优缺点

K-均值聚类算法是一种广泛使用的无监督学习算法,它可以将一组数据分成 K 个簇,每个簇包含最接近的 K 个数据点。其基本思想是找到 K 个中心点,并将数据点分配到这些中心点附近的簇中。总之,K-均值聚类算法是一种简单但有效的聚类算法,可以在许多实际问题中使用。然而,该算法仍然有其局限性和缺陷,需要根据具体情况进行选择和调整。对于每个数据点,计算到各个中心点的距离,并将其分配给距离最近的中心点所在的簇。更新每个簇的中心点,将其设置为该簇中所有数据点的平均值。重复步骤2和3,直到簇不再改变为止。

2023-08-29 09:21:47 426

原创 介绍 TensorFlow 的基本概念和使用场景。

与此同时,TensorFlow还被广泛应用于工业界的产品开发中,例如:Google Search、Google Translate、Gmail、Google Photos等产品都采用了TensorFlow技术。TensorFlow是一个易于使用的机器学习框架,其提供了Python、C++、Java等编程语言的接口,方便开发者进行快速开发和模型迭代。TensorFlow还提供了多种工具和库,例如:tf.data、tf.keras、tf.estimator等,可帮助开发者简化数据处理、建模和训练的流程。

2023-08-28 17:19:08 70

原创 四种常见的数据模型

由Hub(关键核心业务实体)、Link(关系)、Satellite(实体属性)三部分组成,是在ER关系模型上的衍生,同时设计的出发点也是为了数据 的整合,并非为数据决策分析直接使用。特点:设计思路自上而下,适合上游基础数据存储,同一份数据只存储一份,没有数据冗余,方便解耦,易维护,缺点是开发周期一般比较长, 维护成本高。星型模型可以理解为,一个事实表关联多个维度表,雪花模型可以理解为,一个事实表关联多个维度表,维度表再关联维度表。

2023-08-28 17:13:50 289

原创 什么是数据仓库?

数仓是分析数据的平台而不是创造数据的平台。数据仓库反映的是一段相当长的时间内的历史数据,是不同时间点数据库快照的集合,以及基于这些快照进行统计、综合以及重组的导出数据,数仓用户对数据的操作大多是数据查询或者比较复杂的挖掘,一旦数据进入数仓后,一般情况下会被长时间保留,数仓中一般有大量的查询操作,修改和删除的操作很少。数据仓库中的数据时限要远远长于操作性数据库的数据时限,操作性数据库存储的是当前数据,而数仓存储的是历史数据,数仓中的数据是按照时间顺序追加的,它们都带有时间属性。

2023-08-28 15:01:52 401

原创 面对神奇的甲方需求:从无理到有理的处理之道

但通过倾听和理解、提供专业建议和解释、寻求共识和妥协、记录和沟通以及寻求团队支持和反馈,我们可以有效地应对这些需求,并找到合理的解决方案。在处理过程中,保持专业和耐心的态度,我们将能够转化无理的需求为有理的结果。我们应该详细记录甲方提出的需求和我们的回应,以便后续参考和沟通。同时,我们要保持良好的沟通,与甲方保持及时的联系,确保双方在整个处理过程中保持透明和共同进展。虽然这些需求可能与我们的工作实际不符合,但通过深入了解背后的目的和动机,我们可以更好地与甲方沟通,并找到解决方案的切入点。

2023-06-28 11:17:17 769

原创 年轻人存款之难与突破

导语:近日,有关年轻人存款的调查数据引发了广泛讨论,称大约五分之一的年轻人存款在一万元以内。存款超过10万元似乎成为一个“坎”,只有不到半数的人能够跨越这一难关。在这个话题引发热议的背景下,让我们来探讨年轻人存款难的原因以及如何突破这个困境。

2023-06-28 11:08:08 175

原创 Linux与Windows:个人使用体验的差异与感悟

而在Windows上,软件的安装通常需要下载安装包,进行手动安装和更新,这相对繁琐一些,并且容易在安装时产生一些隐含的问题。无论是通过Linux的自由度和高度可定制性来满足个人需求,还是通过Windows的用户友好性和广泛软件支持来提高工作效率,关键在于找到适合自己的平台,并充分发挥其优势。总结起来,Linux和Windows作为常见的操作系统,各自具有独特的特点和优势。在长期使用Linux和Windows两种常见的操作系统后,我发现它们之间存在着一些差异,使得在切换使用时会出现一些让我费解的情况。

2023-06-28 11:03:16 664

原创 聚合转换算子 (归约聚合(reduce))

reduce( (statu,x) => if (x._2 >= statu._2) x else statu ) //选取当前最活跃的用户。//有状态的流处理,如果要使用聚合算子,要使用在只含有有限个key的数据流上,如果key无限多,则会消耗完内存资源。.keyBy(x => true) //将所有数据按照同样的Key分到同一个组中。//1.1相同Key一定会分配到同一个分区,不同Key有可能分配到同一个分区。.reduce(new MyReduce) //统计每个用户的活跃度。

2022-10-04 14:24:53 944 1

原创 Flink 基本转换算子(Transformation) Map Filter FlatMap

/若想要并行处理,需要实现一个ParallelSourceFunction(自定义源算子继承ParallelSourceFunction),算子并行度才可以设置多个。//ParallelSourceFunction[Event] 算子可以设置并行度。//如果当前数据是Leborn的点击事件,那么就直接输出User和Url。//如果当前数据是Mary的点击事件,那么就直接输出User。//SourceFunction[Event] 并行度必须是 1。//随机生成一个event。//读取自定义数据源。

2022-10-04 13:16:23 166

原创 Flink 自定义源算子

/若想要并行处理,需要实现一个ParallelSourceFunction(自定义源算子继承ParallelSourceFunction),算子并行度才可以设置多个。//ParallelSourceFunction[Event] 算子可以设置并行度。//SourceFunction[Event] 并行度必须是 1。//用标志位作为循环判断条件,不停的发送数据。//调用ctx的方法向下游发送数据。//随机生成一个event。//每隔1秒发送一条数据。//读取自定义数据源。

2022-10-04 00:37:13 605

原创 Flume + Kafka + Flink 简单例子

Kafka作为Flume 的 Channel,将数据保存到topic中,Flink作为Kafka的消费者,消费topic中的数据,实现实时数据的分析。定时向文件中插入数据(模拟日志文件的生成,向指定文件中插入当前时间戳)Kafka作为Flume的Channels。

2022-10-03 23:55:55 1185

原创 Flink(Consumer) 从Kafka读取数据

/Kafka连接的相关配置。创建kafka生产者。

2022-10-03 22:47:01 522 1

原创 Flink(1.13.0) 有界流处理

***/}}

2022-10-03 13:39:34 446

原创 Flink (1.13.0) 有界流处理WordCount

/读取文本文件数据。

2022-10-03 13:30:15 322

原创 Web端提交Flink任务

浏览器打开 master:8081。粘贴上面复制的reference。停止任务 cancel job。submit 提交任务。查看当前正在运行的任务。

2022-10-02 01:41:15 238

原创 Flink 创建批处理执行环境

/ createExecutionEnvironment 创建批处理执行环境。//对数据进行转换处理统计,先分词,在按照word进行分组,最后进行聚合统计。.groupBy(0) //一第一个元素作为key进行分组。.sum(1) //对当前所有数据的第二个元素求和。//从文件中读取数据。

2022-10-02 01:10:49 259

原创 Flink 创建流处理运行环境

/ env.setParallelism(16) //设置当前并行度 //执行在哪一个线程是根据当前单词的哈希值决定的。//输出数据可能乱序,网络传输的时候已经乱了,并行度为1时不乱,不能实现高并发,高吞吐量。.keyBy(0) //分组基于当前key的hash值取模。//从外部命令中提取参数作为socket主机名和端口号。//接受一个socket文本流。//启动一个进程,等待数据输入。//创建流处理运行环境。//进行转换处理统计。

2022-10-02 01:08:15 473

原创 Flink(Scala) 安装部署文档(flink-1.10.1-bin-scala_2.12.tgz)

2、解压:tar -zxvf flink-1.10.1-bin-scala_2.12.tgz -C /opt/moudel/1、下载:flink-1.10.1-bin-scala_2.12.tgz。

2022-10-01 22:52:42 477

原创 图书热度实时分析

val data = stream.map(x => new String(x.event.getBody.array()).trim) //.trim 消除左右两边的空格。更换kafka_2.12-3.0.0.jar和kafka-clients-3.0.0.jar。Kafka作为Flume的Channels。消费者读取数据(消费数据)

2022-09-27 18:10:38 684

原创 HIVE 初始化元数据库报错

进入hive安装目录下的bin/,运行命令:./schematool -dbType mysql -initSchema。检查lib/下面是否有hive-exec-3.1.2.jar文件。仔细检查环境变量,查看是否有错误!修改完source生效。

2022-09-25 14:29:17 1621 1

原创 Spark 下载安装配置详解文档 (spark-2.4.8-bin-hadoop2.7.tgz)

解压tar -zxvf spark-2.4.8-bin-hadoop2.7.tgz -C /opt/moudel/官网地址:https://archive.apache.org/dist/spark/重命名mv spark-2.4.8-bin-hadoop2.7 spark-2.4.8。进入/usr/local/spark-2.4.8-bin-hadoop2.7/conf。上传spark-2.4.8-bin-hadoop2.7.tgz。进入/opt/moudel/spark-2.4.8/sbin。

2022-09-24 15:09:24 3384

原创 [WARN - org.apache.flume.channel.file.ReplayHandler.replayLog(ReplayHandler.java:279)] Ignoring ....

dataDirs: 用于存储日志文件的目录的逗号分隔列表。在不同磁盘上使用多个目录可以提高文件通道性能。checkpointDir: 将存储检查点文件的目录。将以下两个参数对应的目录清空;

2022-09-23 21:30:41 365

原创 Flume MySQL_file_HBase

将hbase安装目录下的jar包导入flume安装目录下的lib文件夹中。#dataDirs存储Event的磁盘存储路径。#dataDirs存储Event的磁盘存储路径。#checkpointDir设置检查点目录。#checkpointDir设置检查点目录。创建HBase表flume,列簇demo。

2022-09-22 23:04:10 287 1

原创 假设有两台服务器(A、B )收集实时生产日志,A收集/opt目录下的access.log、nginx.log,B收集/opt目录下的web.log(access.log、nginx.log、web.

运行C,启动之后再运行A和B。

2022-09-22 23:00:06 689

原创 Flume 一台机器收集文件数据后输出到Avro指定端口,另一台机器从该端口读取,并输出到logger。

2、slave1接收数据。

2022-09-21 01:21:45 370

原创 Flume 正则过滤拦截器、时间戳拦截器

a1.sources.s1.interceptors.i1.excludeEvents = false //默认收集符合匹配条件的事件。a1.sources.s1.interceptors.i1.regex = (Spark) | (Hadoop) //正则表达式。a1.sources.s1.interceptors.i1.type = regex_filter //拦截器名称。a1.sources.s1.interceptors.i1.type = timestamp //拦截器名称。

2022-09-21 01:18:12 351 1

原创 Flume 采集44444端口日志,输出到命令终端

➢ 定义一个Sink组,包含2个Sink,一个是读取数据到logger,一个是读取数据到本地目录。➢ 设置logger sink的优先级高于本地目录的Sink。

2022-09-21 01:13:49 271

原创 采集需求:通过exec(即执行命令)的方式,采集某文件的数据并传输至HDFS。

中追加数据,查看hdfs文件(实时监听文件是否有数据产生。)中是否有新文件产生。

2022-09-21 01:11:35 107

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除