BigData_001_Lz-CSDN博客

原创 hadoop集群部署

ssh-keygen用来生成RSA类型的密钥以及管理该密钥，参数“-t”用于指定要创建的SSH密钥的类型为RSA。ssh-copy-id -i /root/.ssh/id_rsa.pub master//依次输入yes,123456（root用户的密码）7、在各节点(环境变量）/etc/profile添加JAVA_HOME和Hadoop路径。使用命令“vim /etc/ntp.conf”打开/etc/ntp.conf文件，//所有节点都要向自己和其他节点发送密钥，实现互相登录免密。

2022-09-13 22:53:58 954

原创 HBase学习：通俗易懂的实例解析

HBase学习：通俗易懂的实例解析

2025-06-09 10:13:11 1063

原创大佬们，DB2数据库迁移到达梦数据库，存储过程有没有什么好办法迁移过来？

1111。

2024-01-24 20:37:39 561 1

原创 MySQL存储过程生成某些年份的具体日期以及判断具体某一天是否为周末

【代码】MySQL存储过程生成某些年份的具体日期以及判断具体某一天是否为周末。

2023-10-26 15:11:52 341

原创华为mate60的发布代表着什么？有什么意义？

对于华为本身来说，Mate60的发布意味着其在国内市场的竞争力再次提升，进一步巩固了其市场地位。同时，华为Mate系列作为其高端产品线，代表着华为的最高水平和最新技术，Mate60的发布也延续了华为一贯的产品品质和技术创新，提升了华为的品牌价值和市场竞争力。该产品预计将引入更强大的处理器、更高分辨率的屏幕、更强大的摄像头等前沿技术，进一步巩固华为在技术领域的领先地位。总之，华为Mate60在处理器、内存、存储、屏幕、摄像头和电池等方面都具备出色的性能和硬件配置，能够提供出色的使用体验。

2023-09-05 09:39:27 4851

原创 ChatGPT和文心一言的优缺点比较

ChatGPT和文心一言都是自然语言生成技术的代表，下面是它们的优缺点比较：

2023-09-01 08:49:46 5963 1

原创 pl/sql

-声明一个自定义记录类型的变量。--定义一个记录类型。

2023-08-31 10:22:08 186

原创解释区块链技术的应用场景和优势

金融交易：区块链可以用来记录交易信息，从而实现去中心化的金融交易。食品追溯：区块链可以用来记录食品的生产、加工、运输和销售等信息，从而实现食品追溯和食品安全管理。不可篡改性：一旦交易信息被记录到区块链中，就无法被篡改和删除，因此交易信息的真实性得到了保证。医疗保健：区块链可以用来记录患者的医疗数据，从而实现去中心化的医疗信息管理和共享。去中心化：区块链是去中心化的分布式数据库，没有单一的控制节点，因此不容易被篡改。物联网：区块链可以用来记录物联网设备之间的交互信息，从而实现去中心化的物联网。

2023-08-30 11:20:45 417

原创电商数仓项目需求及架构设计

用户行为数据主要来源于前端埋点，数据以文件的形式存放，通过Flume将日志文件采集到Kafka（避免直接采集，防止数据量过大，消峰），再通过Flume将数据同步到集群，通过HIVE On Spark对数据进行存储、清洗、转换等操作，将数据分为ODS数据原始层、DWD数据明细层、DWS数据服务层、DWT数据主题层、ADS数据应用层。数据量大小、业务需求、行内经验、技术成熟度、开发维护成本、总成本预算。QuickBI（离线）、DATAV（实时）（阿里产品）MySQL(ADS层)、HDFS、HBase、

2023-08-30 11:09:51 1282

原创讲解人工智能在现代科技中的应用和未来发展趋势

人工智能是现代科技中的一个重要分支，其应用涵盖了各个领域，如医疗、金融、制造业、交通运输、安防、教育、游戏等。未来，随着人工智能技术的进一步发展，其在决策和规划方面的应用将会更加广泛和深入。深度学习技术是现代人工智能的核心技术，未来随着硬件的升级和算法的进一步优化，深度学习技术将会更加成熟和普及。总之，人工智能在现代科技中的应用和未来发展趋势是多方面的，其将会在很多领域中发挥重要的作用，为我们的生活和工作带来更多的便利和创新。未来，人工智能将会深入到自然语言处理技术的研究中，实现更加自然的语言交互。

2023-08-30 08:32:11 279

原创三种事实表

粒度是一个订单一行数据，创建订单时间，付款时间，发货时间，收货时间分别作为一个字段，便于计算不同业务过程的时间间隔。事实表作为数据仓库维度建模的核心，紧紧围绕着业务过程来设计，通过获取描述业务过程的度量来表达业务过程，包含了引用的维度和与业务过程有关的度量。订单支付金额和订单票数，两个事实的粒度为”订单级“，属于上一层订单级数据，与”票级“事实表的粒度不一致，且不仅能进行汇总；如大于、小于、等于等；应用0代替NULL；也称原子事实表，描述业务过程，跟踪控件或时间上某点的度量事件，保存的是最原子的数据；

2023-08-29 17:12:39 253

原创解释 Git 的基本概念和使用方式。

远程管理：使用git remote命令添加、删除、查看远程仓库，使用git push命令将本地代码推送到远程仓库，使用git pull命令从远程仓库拉取代码。分支管理：使用git branch命令来创建、删除、查看分支，使用git checkout命令切换分支。仓库（Repository）：Git中存储代码的地方，包含了代码的历史记录和分支。提交（Commit）：将代码修改记录到Git仓库中的操作。合并（Merge）：将两个分支的修改合并为一个新的分支。克隆：使用git clone命令克隆一个已有的仓库。

2023-08-29 09:39:20 671

原创介绍 Docker 的基本概念和优势，以及在应用程序开发中的实际应用

Docker 是一个开源的容器化平台，可以让开发者将应用程序和其所依赖的组件（如库、运行环境）打包成一个可移植、自包含的容器。可移植性：Docker 容器可以在任何支持 Docker 的环境中运行，保证了应用程序的可移植性。仓库（Repository）：仓库是存放镜像的地方，可以是公共云仓库（如 Docker Hub），也可以是私有仓库。快速部署：Docker 容器可以快速部署，可以在几秒钟内启动或停止一个容器，可以通过自动化工具进行管理和扩容。在应用程序开发中，Docker 的实际应用有很多。

2023-08-29 09:25:11 578

原创机器学习中的 K-均值聚类算法及其优缺点

K-均值聚类算法是一种广泛使用的无监督学习算法，它可以将一组数据分成 K 个簇，每个簇包含最接近的 K 个数据点。其基本思想是找到 K 个中心点，并将数据点分配到这些中心点附近的簇中。总之，K-均值聚类算法是一种简单但有效的聚类算法，可以在许多实际问题中使用。然而，该算法仍然有其局限性和缺陷，需要根据具体情况进行选择和调整。对于每个数据点，计算到各个中心点的距离，并将其分配给距离最近的中心点所在的簇。更新每个簇的中心点，将其设置为该簇中所有数据点的平均值。重复步骤2和3，直到簇不再改变为止。

2023-08-29 09:21:47 522

原创介绍 TensorFlow 的基本概念和使用场景。

与此同时，TensorFlow还被广泛应用于工业界的产品开发中，例如：Google Search、Google Translate、Gmail、Google Photos等产品都采用了TensorFlow技术。TensorFlow是一个易于使用的机器学习框架，其提供了Python、C++、Java等编程语言的接口，方便开发者进行快速开发和模型迭代。TensorFlow还提供了多种工具和库，例如：tf.data、tf.keras、tf.estimator等，可帮助开发者简化数据处理、建模和训练的流程。

2023-08-28 17:19:08 121

原创四种常见的数据模型

由Hub（关键核心业务实体）、Link（关系）、Satellite（实体属性）三部分组成，是在ER关系模型上的衍生，同时设计的出发点也是为了数据的整合，并非为数据决策分析直接使用。特点：设计思路自上而下，适合上游基础数据存储，同一份数据只存储一份，没有数据冗余，方便解耦，易维护，缺点是开发周期一般比较长，维护成本高。星型模型可以理解为，一个事实表关联多个维度表，雪花模型可以理解为，一个事实表关联多个维度表，维度表再关联维度表。

2023-08-28 17:13:50 377

原创什么是数据仓库？

数仓是分析数据的平台而不是创造数据的平台。数据仓库反映的是一段相当长的时间内的历史数据，是不同时间点数据库快照的集合，以及基于这些快照进行统计、综合以及重组的导出数据，数仓用户对数据的操作大多是数据查询或者比较复杂的挖掘，一旦数据进入数仓后，一般情况下会被长时间保留，数仓中一般有大量的查询操作，修改和删除的操作很少。数据仓库中的数据时限要远远长于操作性数据库的数据时限，操作性数据库存储的是当前数据，而数仓存储的是历史数据，数仓中的数据是按照时间顺序追加的，它们都带有时间属性。

2023-08-28 15:01:52 454

原创面对神奇的甲方需求：从无理到有理的处理之道

但通过倾听和理解、提供专业建议和解释、寻求共识和妥协、记录和沟通以及寻求团队支持和反馈，我们可以有效地应对这些需求，并找到合理的解决方案。在处理过程中，保持专业和耐心的态度，我们将能够转化无理的需求为有理的结果。我们应该详细记录甲方提出的需求和我们的回应，以便后续参考和沟通。同时，我们要保持良好的沟通，与甲方保持及时的联系，确保双方在整个处理过程中保持透明和共同进展。虽然这些需求可能与我们的工作实际不符合，但通过深入了解背后的目的和动机，我们可以更好地与甲方沟通，并找到解决方案的切入点。

2023-06-28 11:17:17 1091

原创年轻人存款之难与突破

导语：近日，有关年轻人存款的调查数据引发了广泛讨论，称大约五分之一的年轻人存款在一万元以内。存款超过10万元似乎成为一个“坎”，只有不到半数的人能够跨越这一难关。在这个话题引发热议的背景下，让我们来探讨年轻人存款难的原因以及如何突破这个困境。

2023-06-28 11:08:08 383

原创 Linux与Windows：个人使用体验的差异与感悟

而在Windows上，软件的安装通常需要下载安装包，进行手动安装和更新，这相对繁琐一些，并且容易在安装时产生一些隐含的问题。无论是通过Linux的自由度和高度可定制性来满足个人需求，还是通过Windows的用户友好性和广泛软件支持来提高工作效率，关键在于找到适合自己的平台，并充分发挥其优势。总结起来，Linux和Windows作为常见的操作系统，各自具有独特的特点和优势。在长期使用Linux和Windows两种常见的操作系统后，我发现它们之间存在着一些差异，使得在切换使用时会出现一些让我费解的情况。

2023-06-28 11:03:16 843

原创聚合转换算子（归约聚合(reduce)）

reduce( (statu,x) => if (x._2 >= statu._2) x else statu ) //选取当前最活跃的用户。//有状态的流处理，如果要使用聚合算子，要使用在只含有有限个key的数据流上，如果key无限多，则会消耗完内存资源。.keyBy(x => true) //将所有数据按照同样的Key分到同一个组中。//1.1相同Key一定会分配到同一个分区，不同Key有可能分配到同一个分区。.reduce(new MyReduce) //统计每个用户的活跃度。

2022-10-04 14:24:53 1023

原创 Flink 基本转换算子（Transformation） Map Filter FlatMap

/若想要并行处理，需要实现一个ParallelSourceFunction（自定义源算子继承ParallelSourceFunction），算子并行度才可以设置多个。//ParallelSourceFunction[Event] 算子可以设置并行度。//如果当前数据是Leborn的点击事件，那么就直接输出User和Url。//如果当前数据是Mary的点击事件，那么就直接输出User。//SourceFunction[Event] 并行度必须是 1。//随机生成一个event。//读取自定义数据源。

2022-10-04 13:16:23 204

原创 Flink 自定义源算子

/若想要并行处理，需要实现一个ParallelSourceFunction（自定义源算子继承ParallelSourceFunction），算子并行度才可以设置多个。//ParallelSourceFunction[Event] 算子可以设置并行度。//SourceFunction[Event] 并行度必须是 1。//用标志位作为循环判断条件，不停的发送数据。//调用ctx的方法向下游发送数据。//随机生成一个event。//每隔1秒发送一条数据。//读取自定义数据源。

2022-10-04 00:37:13 666

原创 Flume + Kafka + Flink 简单例子

Kafka作为Flume 的 Channel,将数据保存到topic中，Flink作为Kafka的消费者，消费topic中的数据，实现实时数据的分析。定时向文件中插入数据（模拟日志文件的生成，向指定文件中插入当前时间戳）Kafka作为Flume的Channels。

2022-10-03 23:55:55 1299

原创 Flink（Consumer）从Kafka读取数据

/Kafka连接的相关配置。创建kafka生产者。

2022-10-03 22:47:01 597 1

原创 Flink(1.13.0) 有界流处理

***/}}

2022-10-03 13:39:34 506

原创 Flink (1.13.0) 有界流处理WordCount

/读取文本文件数据。

2022-10-03 13:30:15 396

原创 Web端提交Flink任务

浏览器打开 master:8081。粘贴上面复制的reference。停止任务 cancel job。submit 提交任务。查看当前正在运行的任务。

2022-10-02 01:41:15 306

原创 Flink 创建批处理执行环境

/ createExecutionEnvironment 创建批处理执行环境。//对数据进行转换处理统计，先分词，在按照word进行分组，最后进行聚合统计。.groupBy(0) //一第一个元素作为key进行分组。.sum(1) //对当前所有数据的第二个元素求和。//从文件中读取数据。

2022-10-02 01:10:49 312

原创 Flink 创建流处理运行环境

/ env.setParallelism(16) //设置当前并行度 //执行在哪一个线程是根据当前单词的哈希值决定的。//输出数据可能乱序，网络传输的时候已经乱了，并行度为1时不乱，不能实现高并发，高吞吐量。.keyBy(0) //分组基于当前key的hash值取模。//从外部命令中提取参数作为socket主机名和端口号。//接受一个socket文本流。//启动一个进程，等待数据输入。//创建流处理运行环境。//进行转换处理统计。

2022-10-02 01:08:15 539

原创 Flink(Scala) 安装部署文档(flink-1.10.1-bin-scala_2.12.tgz)

2、解压：tar -zxvf flink-1.10.1-bin-scala_2.12.tgz -C /opt/moudel/1、下载：flink-1.10.1-bin-scala_2.12.tgz。

2022-10-01 22:52:42 624

原创图书热度实时分析

val data = stream.map(x => new String(x.event.getBody.array()).trim) //.trim 消除左右两边的空格。更换kafka_2.12-3.0.0.jar和kafka-clients-3.0.0.jar。Kafka作为Flume的Channels。消费者读取数据（消费数据）

2022-09-27 18:10:38 797

原创 HIVE 初始化元数据库报错

进入hive安装目录下的bin/，运行命令：./schematool -dbType mysql -initSchema。检查lib/下面是否有hive-exec-3.1.2.jar文件。仔细检查环境变量，查看是否有错误！修改完source生效。

2022-09-25 14:29:17 1800 1

原创 Spark 下载安装配置详解文档 (spark-2.4.8-bin-hadoop2.7.tgz)

解压tar -zxvf spark-2.4.8-bin-hadoop2.7.tgz -C /opt/moudel/官网地址：https://archive.apache.org/dist/spark/重命名mv spark-2.4.8-bin-hadoop2.7 spark-2.4.8。进入/usr/local/spark-2.4.8-bin-hadoop2.7/conf。上传spark-2.4.8-bin-hadoop2.7.tgz。进入/opt/moudel/spark-2.4.8/sbin。

2022-09-24 15:09:24 3819

空空如也

空空如也