大数据侠客-CSDN博客

原创 Linux如何查询文件及文件夹大小

2024-04-30 10:22:18 729 1

原创 BI可视化工具对比

用户名：***密码：***

2024-04-23 15:40:13 1372

原创跨集群数据迁移

elasticsearch-dump和logstash做跨集群数据迁移时，都要求用于执行迁移任务的机器可以同时访问到两个集群，不然网络无法连通的情况下就无法实现迁移。而使用snapshot的方式没有这个限制，因为snapshot方式是完全离线的。

2024-04-23 15:34:44 990

原创 Ubuntu在线elasticsearch集群安装

pretty 查看集群主节点 curl http://localhost:9200/_cat/nodes?Enter password for CA (elastic-stack-ca.p12) : //输入CA证书密码：mingyang100。#github 下载地址：https://github.com/medcl/elasticsearch-analysis-ik/releases。1.基于Debian包安装。1.基于Debian包安装。

2024-04-23 15:29:56 1206

原创 Linux修改文件权限及所有者和所属组

注意，在 chown 命令中，所有者和所属组中间也可以使用点（.），但会产生一个问题，如果用户在设定账号时加入了小数点（例如 zhangsan.temp），就会造成系统误判。chown 命令，可以认为是 “change owner” 的缩写，主要用于修改文件（或目录）的所有者，除此之外，这个命令也可以修改文件（或目录）的所属组。[root@localhost ~]# chown [-R] 所有者:所属组文件或目录。-R（注意大写）选项表示连同子目录中的所有文件，都更改所有者。

2024-04-11 18:02:08 3726

原创 mongodb数据迁移的方法

如果已经使用了MongoDB的分片集群，可以通过创建一个新的分片集群，并将旧集群中的数据逐步迁移到新集群中来进行数据迁移。这可以通过将旧集群中的一个分片的数据迁移到新集群中的一个分片，然后逐步迁移其他分片的数据来实现。首先，在新的复制集中添加一个新的节点，然后将旧复制集中的数据复制到新的节点上。mongodump到具体查询条件,mongodump database1 的database1col表中id>1000的数据。(2).将待备份的mongo数据目录复制到新mongo的数据目录。

2024-04-03 16:29:05 1384

原创 RHEL 和 CentOS 和Ubuntu区别

新版带来了一个完全重写的进程调度器和一个全新的多处理器锁定机制，并利用NVIDIA图形处理器的优势对GNOME和KDE做了重大升级，新的系统安全服务守护程序（SSSD）功能允许集中身份管理，而SELinux的沙盒功能允许管理员更好地处理不受信任的内容。Ubuntu（又称乌班图）是一个以桌面应用为主的开源GNU/Linux操作系统，Ubuntu 是基于Debian GNU/Linux，支持x86、amd64（即x64）、ARM和ppc架构，由全球化的专业开发团队（Canonical Ltd）打造的。

2024-04-03 16:04:32 1457

原创 Debian系统安装lz rz以及查看版本

【代码】Debian系统安装lz rz以及查看版本。

2024-04-03 14:59:40 802

原创 Ubuntu22.04系统在线安装Mongo

下载debian版本-6.0.8：https://repo.mongodb.org/apt/ubuntu/dists/jammy/mongodb-org/6.0/multiverse/binary-amd64/mongodb-org-server_6.0.8_amd64.deb。5.在/etc/mongodb.conf中修改数据和日志目录。mongodsh -u admin -p 回车输入密码。** Ubuntu 22.04.2 中使用 **mongo启动、停止、重启。shell登录mongo。

2024-04-03 14:52:25 519

原创 Ubuntu22.04在线elasticsearch集群安装(详细流程)

集群健康状态 curl http://localhost:9200/_cluster/health?pretty 查看集群主节点 curl http://localhost:9200/_cat/nodes?验证： su elasticsearch -c ‘ulimit -Hn’验证：su kibana -c ‘ulimit -Hn’设置jvm内存为物理内存一半，以64G为例。

2024-04-03 14:22:54 1232

原创磁盘阵列缓存模式：Write Through和Write Back

在SQL2005测试中，我们看到两种不同模式在性能结果上基本相当，这是该项测试主要考察的是在数据库的查询、添加、删除、修改等操作时服务器的处理能力，该项测试中更为偏重于对数据库的查询，而实际的写盘操作要远少于读盘操作，这就使得缺省模式下系统超强的读取性能弥补了它写盘较慢的不足。然而在写入时，由于缺少了阵列卡Cache的支持，系统要写数据到磁盘时，会直接进行磁盘写入，而与系统的I/O能力相比，磁盘的读写速度要慢出很多，这直接致使系统写盘的下降。接下来我们就来介绍在对比分析时，磁盘阵列卡的设置过程。

2024-04-03 13:52:42 5443

原创 debian设置软件源为阿里云

【代码】debian设置软件源为阿里云。

2024-04-03 13:23:43 1748

原创磁盘阵列常用技术术语

直接I/O在读取新的数据时总是采用直接从磁盘读出的方法，如果一个数据单元被反复地读取，那么将选择一种适中的读取策略，并且读取的数据将被缓存起来。当磁盘发生故障时，控制器的固件能自动地用热备用磁盘代替故障磁盘，并通过算法把原来储存在故障磁盘上的数据重建到热备用磁盘上。输入输出处理器是NetRAID控制器的指令中心，实现包括命令处理，PCI和SCSI总线的数据传输，RAID的处理，磁盘驱动器重建，高速缓存的管理和错误恢复等功能。冗余的一种类型，一个磁盘上的数据在另一个磁盘上存在一个完全相同的副本即为镜像。

2024-04-03 11:52:27 732

原创 RAID0、RAID1、RAID5、RAID10区别

例如，总共有N块磁盘，那么会将要写入的数据分成N份，并发的写入到N块磁盘中，同时还将数据的校验码信息也写入到这N块磁盘中（数据与对应的校验码信息必须得分开存储在不同的磁盘上）。因为它的原理是在往磁盘写数据的时候，将同一份数据无差别的写两份到磁盘，分别写到工作磁盘和镜像磁盘，那么它的实际空间使用率只有50%了，两块磁盘当做一块用，这是一种比较昂贵的方案。当我们要写数据的时候，会将数据分为N份，以独立的方式实现N块磁盘的读写，那么这N份数据会同时并发的写到磁盘中，因此执行性能非常的高。

2024-04-03 11:45:15 29147

原创 NoSQL介绍

NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在处理web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，出现了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，特别是大数据应用难题。

2024-04-03 10:31:54 884

原创 Linux系统下安装MongoDB的详细步骤

MongoDB 由 C++语言编写，是一个介于关系型数据库和非关系型数据之间的产品，是非关系型数据库中功能最丰富，最像关系数据库的。它支持的数据结构非常松散，是类似与 json 的 bson 格式，因此可以存储比较复杂的数据类型。MongoDB 最大的特点是它支持的查询语言非常强大，其语法有点类似于面向对象的查询语言，几乎可以实现类似关系数据单表查询的绝大部分功能，而且还支持对数据建立索引。MongoDB 的设计目标是高性能、可扩展、易部署、易使用，存储数据非常方便。

2024-04-01 16:16:02 1362

原创 idea无法新建scala类解决办法

总结了下原因：是idea自身的原因，设置好sdk后，idea卡住了，没有刷新sdk环境，就算关掉并重新打开idea也不行。其实还可以尝试下设置好sdk之后，重启下电脑，看是否能解决这个问题。3.把settings下maven的Use plugin registry选项勾选上。1.在global labrari重新配置sdk；2.1 新建file，以".scala"结尾。2.2 根据提示设置scala sdk。2.把整个src目录作为source。2.3 新建scala类。

2024-04-01 09:11:27 854

原创 2019.3idea如何开启Run DashBoard

在idea里面如果需要启动多个项目的话，尤其是是比如微服务项目，动辄要启动五六个七八个应用，如果通过右上角那边启动会很不方便，你需要选择一个再启动一个。那么如果使用Idea的Run DashBoard，即可一览全局，方便项目重新配置、Run、Debug，简化了我们的操作步骤。但是有时候你可能没有Services这个选项.那么就需要我们去改配置了。打开面板之后，我们可以通过这个按你来切换我们喜欢的显示模式。在项目中找到：workspace.xml。可以通过点击如下位置开启这个面板。

2024-03-29 16:07:29 480

原创 IDEA常用命令

Ctrl+J，查看更多。Ctrl+Alt+I，将选中的代码进行自动缩进编排，这个功能在编辑 JSP 文件时也可以工作。Ctrl+B/Ctrl+Click，快速打开光标处的类或方法（跳转到定义处）Ctrl+Alt+T，可以把代码包在一个块内，例如：try/catch。Ctrl+/或Ctrl+Shift+/，注释（//或者/**/）Ctrl+F，查找/Shift+F3，向上查找/F3，向下查找。Ctrl+Alt+Shift+S，打开当前项目/模块属性。Ctrl+Alt+Shift+C，复制引用，必须选择类名。

2024-03-29 16:05:08 954

原创 IDEA没有import project方法

Import Project 选项在Other目录下，找到import Project ，点击OK保存设置即可.打开Main menu > File > 选中File 下边任意一个, 点击右侧按钮 Add After。使用IDEA准备导入项目时发现没有Import Project选项。这里会弹出一个界面让你选择添加的功能。

2024-03-29 16:04:41 875

原创工作汇报做得好，升职加薪才能早

所以年终汇报时，一定要抓住汇报最主要的目的，是就过去一年的成绩和未来一年的目标在战略层与执行层之间达成共识，是让我们的“老板或是公司”了解到，我们所做出的产出对他与企业本身产生了怎样的效应，所有与这一目标无关的信息与表达，都是扣分项。可以尝试的解决办法，除了前面提到的，举例对其他岗位产生的正面影响以外，还可以尝试引入行业数据或同行数据，通过横向的对比来展现成果，这也是种有说服力的手段。比如在沟通上做得非常出色，得到了合作部门的普遍认可，提升了沟通效率，减少因沟通产生的工作问题等，也可以当做我们创造的价值。

2024-03-29 14:16:20 434

原创 35岁以后，不太建议你再进大公司

其实大厂并不稳定，第一个是裁员太猛，比如最近年底几乎每个大厂都有裁员，名字我就不点了，一搜网上全是，今天你刚拿大厂工牌，晒一张朋友圈，半年后说不定就成离职纪念了。我打工10多年只进过一个大公司，就是华为，后来离职换行业，倒不是因为去不了别的大厂，而是，我20多岁那会儿，就见识了大厂对35+职场人的残酷。再一个因为平台好，起点高，外面跟你打交道的都是对方的精英，精英怎么做事，待人接物，也是大厂可以给你的宝贵体验。说句题外话，因此把事情做到最好，让领导挑不出毛病来，连骂我的机会都不给他，就成了我后来的习惯。

2024-03-29 14:15:15 477

原创面试经验总结

很多时候，面试你的人并不一定面试是你的技术水平，你做过多少项目不是最重要的，更多的是你的表达能力、理解能力，你做的东西面试官也不一定懂，但是可以感知到你表达能力和理解能力。表述项目经验的时候需要从项目的需求、架构、技术点、自己负责开发的模块去讲述。表述自己开发的模块尤为重要。针对技术开发岗位的面试，这段话确实是真的。当然也要面试一些技术点的。

2024-03-29 14:14:11 95

原创 rpc和http的区别是什么各自的优缺点有哪些

http是指从客户端到服务器端的请求消息，rpc是远程过程调用协议。那rpc和http的区别是什么。

2024-03-29 14:12:32 1813

原创 Http请求返回code意义

此代码与响应 GET 和 HEAD 请求的 301 代码类似，会自动将请求者转到不同的位置，但您不应使用此代码来告诉 Googlebot 某个页面或网站已经移动，因为 Googlebot 会继续抓取原有位置并编制索引。此代码与响应 GET 和 HEAD 请求的 301 代码类似，会自动将请求者转到不同的位置，但您不应使用此代码来告诉 Googlebot 某个网页或网站已经移动，因为 Googlebot 会继续抓取原有位置并编制索引。410(已删除)如果请求的资源已永久删除，服务器就会返回此响应。

2024-03-29 14:07:29 1330

原创多war包部署在一个tomcat中

碰到的问题，可能会打包出来比如你的项目名为aaaa,但是打包出来比如成了aaaa-2.0.war,这个时候记得把aaaa-2.0,war包改成aaaa.war，然后运行。2、第二种方式是修改server.xml的配置文件，定义每个服务各一个端口，然后服务器之间的调用设置成你在tomcat中配置的端口。默认端口8080，而且执行webapps下面的war包，这样那你每个服务之间的调用代码或者配置都要改成8080端口。然后在tomcat下面创建多个文件夹，将要运行的war包对应端口放在目录下。

2024-03-29 13:59:27 668

原创远程mysql报错GHost ‘xxx‘ is not allowed to connect to this MySQL serverConnecti

在另一个主机执行telnet命令远程访问mysql的3306端口报错：GHost ‘192.168.88.132’ is not allowed to connect to this MySQL serverConnection closed by foreign host.然后再在另一台主机远程访问就能成功访问到192.168.88.133主机的端口号了。退出数据库后，执行service mysqld restart命令重启数据库服务。mysql数据库不允许远程主机访问当前数据库。

2024-03-29 10:28:07 547

原创面试必练：50道经典SQL练习

1.学生表–S 学生编号,Sname 学生姓名,Sage 出生年月,Ssex 学生性别–2.课程表–C --课程编号,Cname 课程名称,T 教师编号–3.教师表–T 教师编号,Tname 教师姓名–4.成绩表–S 学生编号,C 课程编号,score 分数。

2024-03-29 10:25:01 1164

原创达梦与Oracle对比

达梦：单进程多线程，达梦分为实例与数据库两部分实例，一组正在运行的DM后台进程/线程以及一个大型的共享内存组成，包含监听线程、工作线程、IO线程、调度线程、日志相关线程等数据库，由一组物理文件组成，包含数据文件、日志文件、控制文件以及临时文件等控制文件一主一备，备用的只有主不可用的情况才会被使用。Oracle：多进程实例，也是一组进程以及共享内存组成，涵盖进程更多数据库，也是一组物理文件，如数据文件、日志文件、控制文件等oracle的控制文件可以有多组，同时在线使用.静默安装，需提前准备好响应参数文件。

2024-03-29 10:24:29 797

原创 mysql-自动排序函数(dense_rank() over、rank() over、row_number())

需要对score进行1-N排名，需要用到rank() ovre(业务逻辑)函数,但是又因为相同分数的学生，这样在相同排名的下一位学生只需要在之前相同排名的基础上+1即可，故要用到dense_rank() over(业务逻辑)函数。rank() over()与dense_rank() over()的作用基本相同，都是对查出指定条件后的进行排名，条件相同排名相同，排名间断不连续，区别在于dense_rank() over 排名是密集连续的。在排名相同的分数后，排名数应该是下一个连续的整数。

2024-03-29 10:23:20 1027

原创 git修改远程分支的名称

git branch --set-upstream-to orgin/新分支名称。git puth --delete origin 自己的原分支名称。git branch -m 原分支名称新分支名称。git push origin 新分支名称。4.修改后的本地分支与远程分支关联。1.重命名自己本地的分支。2.删除远程自己的原分支。3.推送新命名的分支。

2024-03-29 10:22:23 831

原创 data遇见的问题总结

com.alibaba.datax.common.exception.DataXException: Code:[Framework-03], Description:[DataX引擎配置错误，该问题通常是由于DataX安装错误引起，请联系您的运维解决 .]. - 在有总bps限速条件下，单个channel的bps值不能为空，也不能为非正数。正如中文字面上所说，DataX的配置有问题，单个channel的bps值不能为空，也不能为非正数。修改文件datax/conf/core.json。

2024-03-29 10:04:01 1036

原创 linux datax安装

datax-elasticsearch: datax数据同步elasticsearch的reader和writer插件，支持一对多的扁平数据转换成es的嵌套对象，也支持嵌套对象的读取和ognl表达式过滤，理论上可以无限嵌套。DataX 是阿里开源的一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。按照码云上的操作步骤就可以,把插件放到datax 相应目录下就可以了。

2024-03-28 17:17:32 646

原创 Hive矢量化

而且Hive 目前严重依赖比较慢的反序列化方式，数据会通过一层对象检查器，用来标识列类型、反序列化数据并在内部循环中确定适当的（计算）表达式。所以 Hive 添加了矢量化查询、执行的支持，这样在 Hive 中就能一次处理大约一千行的批次（默认），而不是一行。执行的内部循环的时候能非常快速地扫描这些向量，避免了方法调用、反序列化、不必要的 if-then-else 等，这大大减少了CPU的使用时间。使用 AND、OR、NOT、<、>、<=、>=、=、=、！算术： +， -， *， /， %

2024-03-28 17:15:12 217

原创 raid0和raid1的区别

RAID 0只是单纯地提高性能，并没有为数据的可靠性提供保证，而且其中的一个磁盘失效将影响到所有数据，这也是为什么RAID 0不能应用于数据安全性要求高的场合的原因。RAID1通过硬盘数据镜像实现数据的冗余，保护数据安全，在两块盘上产生互为备份的数据，当原始数据繁忙时，可直接从镜像备份中读取数据，因此RAID1可以提供读取性能。RAID1是硬盘中单位成本最高的，但提供了很高的数据安全性和可用性，当一个硬盘失效时，系统可以自动切换到镜像硬盘上读/写，并且不需要重组失效的数据。盘间是相互备份的，安全性高。

2024-03-28 17:14:33 1347

原创大数据常见问题解决

解决方法：Serializable the class;解决方法：mvn install:install-file -Dfile=spark-assembly-1.6.2-hadoop2.6.0.jar -DgroupId=org.apache.repack -DartifactId=spark-assembly-1.6.2-hadoop2.6.0 -Dversion=2.6 -Dpackaging=jar。

2024-03-28 17:12:52 511

原创手动添加jar到本地maven仓库

【代码】手动添加jar到本地maven仓库。

2024-03-28 17:12:21 448

原创集群时钟同步

如果已安装可跳过，修改硬件时钟为UTC，时区为本地时区。通过timedatectl查看时间。

2024-03-28 17:11:42 525

原创 xml格式数据转excel

1、xml文件中编码为encoding=“UTF-8”，如其中有中文乱码，需要先调整正常显示，可以用sublime编辑器或者其他编辑器打开，把编码先修改成GB2312保存后，再修改成UTF-8即可；开发过程中也许需要对大批量数据进行对比查找，或者查找重复值，xml格式数据比较难定位到，但是利用excel可以处理过滤筛选。2、xml格式文件必须只能有一个根节点，如没有可以自行添加，拖入excel时如没有也会提醒。然后就会打开该文件了，里面的内容按照excel表格自动排列，你可以进行自由整理和调整了。

2024-03-28 17:11:08 1836

原创为什么不建议你用去 “! = null” 做判空？

1、假如方法的返回类型是collections，当返回结果是空时，你可以返回一个空的collections（empty list),而不要返回null，这样调用侧就能大胆地处理这个返回，例如调用侧拿到返回后，可以直接print list.size()，又无需担心空指针问题。例如你开发了一个接口，id是一个必选的参数，如果调用方没传这个参数给你，当然不行。不过代码量还是不少。这种情况下，null是个”看上去“合理的值，例如，我查询数据库，某个查询条件下，就是没有对应值，此时null算是表达了“空”的概念。

2024-03-28 17:10:37 627