大数据相关学习资料
文章平均质量分 60
大数据相关知识
auspicious航
无畏年少青春,迎风潇洒前行。
展开
-
Java与.Net的区别
而 .NET 起初是为 Windows 开发的,但现在已经有了 .NET Core,它是一个跨平台的开发平台,可以在多个操作系统上运行。而 .NET 生态系统则是由微软主导,拥有一系列的开发工具和框架。Java 以其平台无关性和丰富的生态系统而广泛使用,可以在不同的操作系统上运行。1. 语言:Java 使用 Java 编程语言,而 .NET 使用 C#、VB.NET、F# 等多种编程语言。Java 和 .NET 是两个不同的软件开发平台,它们在语言、生态系统、跨平台性和开发工具等方面有着不同的特点。原创 2023-12-11 15:54:04 · 4154 阅读 · 0 评论 -
Docker与K8s的区别
Docker 提供了一种轻量级的打包和运行容器的方式,而 K8s 则提供了跨多个主机和容器的自动化管理和编排能力。在实际使用中,我们可以使用 Docker 构建和运行容器,然后使用 K8s 管理和编排这些容器,以实现更高级的容器化应用程序的管理和部署。您可以使用 Docker 来构建、管理和运行单个容器,每个容器都是一个独立的运行环境,具有自己的文件系统、进程和网络接口。Docker 和 K8s(Kubernetes)是两个不同的技术,它们在容器化应用程序的管理和部署方面有着不同的角色和功能。原创 2023-12-11 15:51:18 · 748 阅读 · 0 评论 -
瀚高Bytesynch数据融合平台
瀚高Bytesynch数据融合平台是一个用于数据整合和分析的解决方案。它旨在帮助企业从多个来源和多个格式的数据中提取有价值的信息,以支持决策制定和业务增长。该平台基于先进的数据融合技术,可以将来自不同数据源的数据整合在一起,包括结构化数据(如关系型数据库)和非结构化数据(如文本、图像和音频)。它还支持实时数据流和批处理数据的处理和分析。瀚高ByteSynch数据融合平台是一个基于CDC技术,通过对数据库日志的全面解析,实现同异构数据库之间数据高速同步的系统。原创 2023-11-01 14:32:20 · 727 阅读 · 2 评论 -
kafka与hbase的区别
发布订阅模式:Kafka 使用发布订阅模式,将消息发布到不同的主题(topics),然后订阅者可以根据自己的需求选择订阅感兴趣的主题,并获取实时的消息数据。强大的扩展性:HBase 可以通过添加更多的节点来水平扩展,以处理大量的数据和高并发的访问请求。灵活的数据模型:HBase 提供了灵活的数据模型,可以存储和处理结构化和半结构化的数据。它支持数据的版本控制和列族的动态添加。高可靠性:HBase 提供了强大的数据冗余和容错机制,通过将数据分布在不同的节点上进行备份,确保数据的可靠性和持久性。原创 2023-10-07 15:44:29 · 800 阅读 · 0 评论 -
关于国产数据库与国外数据库之间的区别
数据存储和处理:一些国产数据库使用不同的数据存储和处理方式。例如,一些国内数据库可能更倾向于使用自研的分布式存储和处理技术,以满足大规模数据处理和高并发访问的要求。由于数据安全和隐私对于许多组织和企业来说是至关重要的,国产数据库可能会提供更多的安全功能和选项,以满足本地需求。政策和法规要求:国产数据库可能更好地符合本地的政策和法规要求,包括数据存储和处理的合规性要求。由于无需支付高额的国际版权费用,国产数据库可能会提供更具竞争力的价格,并更好地满足本地市场的需求。这有助于用户更好地理解和使用数据库。原创 2023-09-05 10:19:28 · 1062 阅读 · 0 评论 -
星环Transwarp Data Hub大数据介绍
它具有数据集成和管理、数据存储和处理、数据分析和挖掘、数据安全和隐私、管理和监控等功能。管理和监控:Transwarp Data Hub提供了一套完整的管理和监控工具,可以帮助管理员和运维人员管理和监控大数据平台的运行状态和性能。数据存储和处理:Transwarp Data Hub提供了可扩展的数据存储和处理能力,可以支持PB级的数据存储和处理。数据巡检:检查存储在Transwarp Data Hub中的数据的完整性和可用性,包括检查数据备份和恢复过程是否正常运行,以及检查数据存储是否达到预期的性能要求。原创 2023-09-05 10:05:42 · 752 阅读 · 0 评论 -
Hive的堵塞问题和表锁问题原因查找
当一个用户或任务需要对表进行修改(如插入、更新、删除等操作)时,Hive会自动获取一个表级锁,以防止其他用户或任务同时修改该表。排他锁适用于对表进行写操作,当一个用户或任务获取到了一个表的排他锁时,其他用户或任务将无法修改该表。如果一个用户或任务需要对表进行修改,但另一个用户或任务已经获取了表的锁,那么该用户或任务将被阻塞,直到锁被释放。需要注意的是,解锁表是一个谨慎的操作,应该确保在不再需要锁的情况下才进行解锁。网络问题:如果集群之间的网络连接出现问题,可能会导致任务之间的通信延迟,从而造成堵塞。原创 2023-08-02 17:58:53 · 1243 阅读 · 0 评论 -
关于Hive的使用技巧
可以使用SET命令来设置相关参数,如mapreduce.job.reduces、hive.exec.parallel、hive.exec.dynamic.partition.mode等。优化查询:在编写查询语句时,可以使用HiveQL的优化技巧来提高查询性能。分区和桶:使用分区和桶可以提高查询性能。使用分区外表:如果数据已经按照某个字段进行了分区,可以使用分区外表来减少数据导入的时间和空间开销。使用预编译:Hive提供了预编译功能,可以将HiveQL查询编译成字节码,以减少查询的解析和优化时间。原创 2023-08-02 17:55:03 · 1197 阅读 · 0 评论 -
Hadoop巡检脚本
变量为你的Hadoop连接信息和输出文件路径。运行脚本后,将会生成一个巡检报告文件,其中包含了Hadoop版本、HDFS健康状态、集群节点信息、YARN应用程序信息和YARN节点信息等。同样,这只是一个基本的示例脚本,你可以根据具体需求进行扩展和定制,添加更多的巡检项和检查规则。原创 2023-08-02 14:02:59 · 1210 阅读 · 0 评论 -
Hive巡检脚本
变量为你的Hive连接信息和输出文件路径。运行脚本后,将会生成一个巡检报告文件,其中包含了Hive版本、每个数据库的表列表、表数量、表的记录数和大小等信息。这只是一个基本的示例脚本,你可以根据具体需求进行扩展和定制,添加更多的巡检项和检查规则。原创 2023-08-02 14:02:01 · 1235 阅读 · 0 评论 -
MongoDB数据库巡检脚本
变量为你的MongoDB连接信息和输出文件路径。运行脚本后,将会生成一个巡检报告文件,其中包含了MongoDB版本、每个数据库的大小和每个集合的大小等信息。这只是一个基本的示例脚本,你可以根据具体需求进行扩展和定制,添加更多的巡检项和检查规则。原创 2023-08-02 14:00:17 · 470 阅读 · 0 评论 -
GaussDB为什么选择PostgreSQL
GaussDB A的前身是GaussDB 200,是华为自2011年开始基于PostgreSQL 9.2.4自主研发的一款具备多模分析及混合负载能力的大规模并行处理分布式数据库,支持行列混合存储以及线程化,支持高达2048节点的集群规模,提供PB(Petabyte)级数据分析能力、多模分析能力和实时处理能力。技术先进:PG号称是世界最先进的开源数据库,其先进性不仅体现在基本的存储、事务、查询处理等方面,更多的是体现在其新技术上,比如JIT查询计划的即时编译和外部表技术等。原创 2023-03-02 15:15:29 · 3177 阅读 · 1 评论 -
kettle通用插件
目前已实现从rest接⼝读取数据到字段、通过sax⽅式解析excel到多个字段。"url":"",其中,method,请求类型:get/post headers,请求头,必须存在,可以为空对象:{}useSSL,对于有些环境,请求https会报PKIX认证的错误,设置该参数为true绕过认证params,post请求时传的参数,method为post的时候,参数params才有效。原创 2023-02-01 09:36:19 · 1215 阅读 · 0 评论 -
Kettle基础操作
点击右上角Connect按钮(7.0以下版本需要点击左上方工具栏,工具->资源库->连接资源库),弹出如下界面。此时已选择数据库,修改资源库名称Display Name,勾选下方单选框,最后点击Finish,出现如下窗口。新安装的Kettle没有创建资源库,需要新建资源库才能将后续操作进行持久化。进入Kettle根目录,将你习惯使用的数据库JDBC包放入Lib目录下。如下是启动完毕后的界面(Kettle7.1版本,其他版本有可能不同)选择刚才创建的资源库,再点击Back返回。原创 2023-01-30 16:29:16 · 3220 阅读 · 0 评论 -
使用Kettle实现-时间戳增量回滚同步
本文介绍了使用Kettle对一张业务表数据(500万条数据以上)进行实时(10秒)同步,采用了时间戳增量回滚同步的方法。关于ETL和Kettle的入门知识大家可以阅读相关的blog和文档学习。原创 2023-01-30 16:10:10 · 851 阅读 · 0 评论 -
Transwarp Inceptor中的对象
和TEXT表相似,CSV表常用于向Inceptor中导入原始数据,然后针对不同场景,用户可以将其中的数据放入ORC表或Holodesk表中。在Inceptor中,您可以使用常见的数据库对象,包括数据库(database),表(table),视图(view)和函数(function)。分区表下的数据按分区键的值(或值的范围)放在HDFS下的不同目录中,可以有效减少查询时扫描的数据量,提升查询效率。建外部TEXT表,让该表指向HDFS上的一个目录,Inceptor会将目录下文件中的数据都导入该表。原创 2022-11-16 10:03:32 · 1179 阅读 · 0 评论 -
Transwarp Inceptor介绍
Transwarp Inceptor是星环科技推出的用于数据仓库和交互式分析的大数据平台软件,它基于Hadoop和Spark技术平台打造,加上自主开发的创新功能组件,有效的解决了企业级大数据数据处理和分析的各种技术难题,帮助企业快速的构建和推广数据业务。原创 2022-11-16 09:45:39 · 1954 阅读 · 0 评论 -
Linux下安装python 2.7
环境的话每台都得手动操作升级,工作量比较大,的路径,为其创建软链作为系统默认的启动版本。的路径,为其创建软链作为系统默认的启动版本。修改配置文件使其可正常使用。安装工具只支持系统自带的。命令做软连接,快捷使用。运行下面命令进行安装。原创 2022-11-11 09:48:05 · 4449 阅读 · 1 评论 -
Java已经走过了27周年,期待更好的未来
2022年5月23日,距Java编程语言和平台的第一个公开alpha版本发布已经27周年了。岁月更迭,27岁的Java至今仍然活跃在各大主流的系统和框架中,历久弥新。1991年,JamesGosling带领团队开始了一个叫“Oak"的项目,这就是Java的前身。Java刚开始出现的时候主要面向InteractiveTelevision领域,Sun(后来在2010年被Oracle收购)一度想用Java来打造桌面的网络操作系统,取代当时如日中天的Windows。后来,Java虽未在桌面领域取得多大建树,却出乎原创 2022-05-19 10:49:01 · 221 阅读 · 0 评论 -
星环Transwarp Data Hub大数据安装学习
目录1. 简介1.1. Transwarp Data Hub介绍1.2. 集群结构2. 安装准备2.1. 硬件环境要求2.2. 操作系统要求2.3. Java环境要求2.4. 支持的浏览器3. 安装前的检查3.1. 系统磁盘分区要求3.1.1 磁盘资源的规划 3.2. 内存容量要求3.3. 网络设置3.4. 集群和网络拓扑要求3.5. NTP服务设置3.6. 安全设置3.7. 系统的推荐设置4. 安装配置4.1. 修改主机名4.2. 创建目录4.3. 配置磁盘分区 5. Transwarp Manager的原创 2022-05-12 15:05:17 · 4229 阅读 · 0 评论 -
Docker 常用命令大全
容器生命周期管理run start/stop/restart kill rm pause/unpause create exec容器操作ps inspect top attach events logs wait export port容器rootfs命令commit cp diff镜像仓库login pull push search本地镜像管理images rmi tag build history save load imp原创 2022-05-01 09:43:01 · 227 阅读 · 0 评论 -
Windows Docker 安装
Docker 并非是一个通用的容器工具,它依赖于已存在并运行的 Linux 内核环境。Docker 实质上是在已经运行的 Linux 下制造了一个隔离的文件环境,因此它执行的效率几乎等同于所部署的 Linux 主机。因此,Docker 必须部署在 Linux 内核的系统上。如果其他系统想部署 Docker 就必须安装一个虚拟 Linux 环境。在 Windows 上部署 Docker 的方法都是先安装一个虚拟机,并在安装 Linux 系统的的虚拟机中运行 Docker。Win10 系统原创 2022-04-18 15:35:08 · 272 阅读 · 0 评论 -
docker镜像和容器常用命令
1. 镜像相关操作命令 docker images //列出本地主机上已有的镜像; docker pull 镜像名(如ubuntu) //默认下载Docker Hub官方仓库中的镜像; docker search 关键字(如mysql) //默认搜索Docker Hub官方仓库中的镜像; docker push 镜像名 //默认把镜像上传到Docker Hub官方仓库中; docker inspect 镜像名|容器 //获取镜像或容器的...原创 2022-04-11 09:40:57 · 532 阅读 · 0 评论 -
Docker的学习与使用
目录 第一章 Docker介绍第二章 Docker架构第三章 Docker安装第四章 Docker进程相关命令第五章 Docker镜像相关命令第六章 Docker容器相关命令第七章 Docker容器的数据卷第八章 Docker常见应用部署8.1、部署MySQL8.2、部署Redis8.3、部署Tomcat8.4、部署Nginx8.5、部署RabbitMQ8.6、部署FastDFS8.7、部署GitLab8.8、部署MongoDB 第九章 Dockerfile 快速入门第十章 Docker自己搭建私..转载 2022-04-07 14:38:22 · 153 阅读 · 0 评论 -
使用notepad++批量在每行首尾添加内容并合并行
1、每列行头加内容(1)快捷键:Ctrl+F 替换,选择正则, ^ 代表行首(2)如下图所示,增加完成2、每列行尾加内容(1)快捷键:Ctrl+F 替换,选择正则, $代表行首(2)如下图所示,增加完成3、将多行数据合并为一行(1)快捷键:Ctrl+F 替换,选择正则, \r\n 代表合并行(2)如下图所示,增加完成...原创 2022-02-10 10:12:08 · 6321 阅读 · 1 评论 -
ERROR: Failed to Setup IP tables: Unable to enable SKIP DNAT rule
报错如下:ERROR: Failed to Setup IP tables: Unable to enable SKIP DNAT rule: (iptables failed: iptables --wait -t nat -I DOCKER -i br-2add1a39bc5d -j RETURN: iptables: No chain/target/match by that name.原因是关闭防火墙之后docker需要重启,执行以下命令重启docker即可:systemctl res原创 2022-01-13 15:06:51 · 2046 阅读 · 1 评论 -
在Windows Server 2012 R2上安装Docker
解决方法:直接用迅雷下载boot2docker.iso文件,再把boot2docker.iso文件放置到C:\Users\Administrator\.docker\machine\cache目录下。Windows 10及以上不必多说,直接去官网下载软件包进行安装即可,下载地址:https://www.docker.com/products/docker-desktop。在这里需要选择最下面一个打上勾,因为有可能会装不上。,先提供一下我已经下载好的安装包.因业务需要所以需要安装。...原创 2022-01-11 16:15:13 · 6945 阅读 · 2 评论 -
kettle连接oracle数据库和MySQL数据库报错
kettle连接oracle数据库报错kettle第一次连接oracle数据库时报错“错误连接数据库 [Oracle]”,这是因为SPoon缺少Oracle对应的jar包,如果已安装Oracle或者Oracle客户端则可以从它们的安装目录中复制对应的jar文件,解决报错误问题。解决方式:需要oracle数据库的所有ojdbc开头的文件,例如ojdbc5、ojdbc6.jar等 复制好 并粘贴到Spoon目录下,例如:D:\ProgramFiles\pdi-ce-7.1.0.0-12\da..原创 2021-11-03 15:26:31 · 3068 阅读 · 0 评论 -
Cannot register the hard disk ‘E:\system_iso\CentOS6.8.vdi‘ {05f096aa-67fc-4191-983d-1ed00fc6cce9}
问题描述:UUID已经存在 Cannot register the hard disk 'E:\system_iso\CentOS6.8.vdi' {05f096aa-67fc-4191-983d-1ed00fc6cce9} because a hard disk 'E:\system_iso\centos68_02\centos6.8.vdi' with UUID {05f096aa-67fc-4191-983d-1ed00fc6cce9} already exists.错误代码:原创 2021-11-03 14:47:22 · 191 阅读 · 0 评论 -
kettle 简介及入门
介绍kettle 是纯 java 开发,开源的 ETL工具,用于数据库间的数据迁移 。可以在 Linux、windows、unix 中运行。有图形界面,也有命令脚本还可以二次开发。kettle 的官网是https://community.hitachivantara.com/docs/DOC-1009855,github 地址是GitHub - pentaho/pentaho-kettle: Pentaho Data Integration ( ETL ) a.k.a Kettle。安装..原创 2021-10-09 14:38:42 · 22009 阅读 · 0 评论 -
如何写CSDN文章
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar原创 2021-08-06 15:42:05 · 359 阅读 · 0 评论 -
免费PPT模板汇总
如下是免费PPT的链接http://www.1ppt.com/原创 2021-07-20 10:36:10 · 125 阅读 · 0 评论 -
PDF文档免费转成Word文档,不限页数。
链接:https://download.csdn.net/download/auspicious_air/10942678断网状态下输入序列号Name: SolidConverterPDFv9E-mail: user@ru.ruOrganization: anyUnlock Code: KTGK原创 2018-04-14 17:52:48 · 31172 阅读 · 9 评论 -
Linux系统常见命令大全,适合初学者。
链接: https://pan.baidu.com/s/1L2CAYVpTtwZomv8VLgZl2w提取码: 3hxq复制这段内容后打开百度网盘手机App,操作更方便哦原创 2018-04-14 17:57:57 · 239 阅读 · 0 评论 -
Linux下kafka的安装
环境:RHEL7 jdk1.8 zookeeper3.4.10 kafka2.11操作前打开2181和9092端口或关闭防火墙一.安装zookeeper1.zookeeper下载路径:wget http://mirrors.hust.edu.cn/apache/zookeeper/zookeeper-3.4.10/zookeeper-3.4.10.tar.gztar -zx...原创 2020-03-16 14:21:16 · 253 阅读 · 0 评论 -
Linux下hadoop、hbase的安装
Hadoop安装步骤hadoop下载地址:http://mirrors.advancedhosters.com/apache/hadoop/common/一、安装jdk以及hadoop (jdk要求1.7以上版本)安装hadoop的用户为root创建安装目录并解压相关文件:mkdir /usr/local/javamkdir /usr/local/hadoop...原创 2019-04-29 15:11:21 · 827 阅读 · 0 评论 -
windows下kafka的安装
Kafka的安装Windows一、安装JDK1.JDK下载路径http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html2.按照网上参考步骤,依次配置JAVA_HOME、Classpath和Path,然后打开cmd,运行java -version成功,则JDK配置成功;...原创 2019-04-29 15:18:43 · 297 阅读 · 0 评论 -
Linux单机到Windows的OGG安装部署步骤
OGG安装部署步骤(linux单机到windows)检查Goldengate通过抓取源端数据库重做日志进行分析,将获取的数据应用到目标端,实现数据同步。因此,源数据库需要必须处于归档模式,并启用附加日志和强制日志。1.1 查看源端数据库是否开启归档$ sqlplus / as sysdbaSQL> archive log list;如果是非归档模式,需要开启归档...原创 2019-04-29 15:36:24 · 1435 阅读 · 0 评论 -
Linux单机到Linux单机的OGG安装部署步骤(支持DDL)
OGG安装部署步骤(linux单机对linux单机支持DDL)检查Goldengate通过抓取源端数据库重做日志进行分析,将获取的数据应用到目标端,实现数据同步。因此,源数据库需要必须处于归档模式,并启用附加日志和强制日志。1.1 查看源端数据库是否开启归档$ sqlplus / as sysdbaSQL> archive log list;如果是非归档模式,需...原创 2019-04-29 15:46:45 · 2557 阅读 · 1 评论 -
完美解决 Linux安装python2.7 方案
Linux下安装python 2.7 安装依赖的库yum -y install python-devel openssl openssl-devel gcc sqlite sqlite-devel mysql-devel libxml2-devel libxslt-develPython**...转载 2019-05-08 10:36:54 · 2411 阅读 · 0 评论