自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 java代码保存学生信息导入到kafka的topic里,然后kafka把数据导入到hdfs

a1.sinks.k1.hdfs.path = /home/output/%Y-%m-%d # 替换为你的 HDFS URI。

2024-11-12 20:39:58 118

原创 关于为什么启动不了kafka,集群也启动不了kafka的问题解决方案

这是集群命令启动后的正常状态,zookeeper和kafka都启动了。把datas里所有清空,或者直接删除这个文件夹,再新建datas的空文件夹。你再次启动集群kafka时还会出现数据,不要怕,这里保存的只是临时日志文件。这种很可能是存放日志的你自己建的文件夹满了,或者有问题。

2024-11-12 15:02:04 51

原创 因为电脑卡死或者没网直接关机电脑导致虚拟机进不去的解决办法(亲测最有效)

情况一(解决办法):打开虚拟机的安装目录,找到损坏虚拟机里的目录,把带有.lck字样的文件夹删除即可。(最重要的一点,我就是这种情况二,同事们都是情况一解决的)问题解决,逃不出这两种情况。

2024-11-11 20:16:09 118

原创 Linux中查看文件方式的几种区别

可以通过enter键,继续往后查看,继续往后查看,每次查看一行数据,点击space键,每次查看一页数据如果不想看了,可以输入 q。可以通过enter键,继续往后查看,每次查看一行数据,点击space键,每次查看一页数据,如果不想看了,可以输入 q。cat /etc/services 查看该文件,并且全部展示(管你有几万行我也全部展示),一般用于查看小文件。tail -f /etc/services 滚动查看某个文件(一般该文件是日志文件,不断的有内容往里面写入)head 查看文本文件前10行。

2024-11-11 19:07:07 87

原创 Kafka面试夺命连环30问

Topic是逻辑上的概念,而partition是物理上的概念,每个partition对应于一个log文件,该log文件中存储的就是Producer生产的数据。由于数据同步的时候先进入Leader,随后同步给Follower,假如Follower挂掉了,Leader和其他的Follower继续往前存储数据,挂掉的节点从ISR集合中剔除,此时挂掉的Follower又重启了,他会先从上次挂掉的节点的HW开始同步数据,直到追上最后一个Follower为止,会重新回归到ISR。Partition 表示分区号;

2024-11-09 12:07:41 679

原创 Linux中的软连接、硬链接的相关知识与使用

ln, link的缩写,连接的意思,分为软链接和硬链接,一般都使用软链接。软链接:类似于Windows系统中的快捷方式,相当于复制但与复制的区别是它不占用内存空间,它包含有另一文件的位置信息,而不是文件的实际数据。它的功能是某一文件在另外一个位置建立一个同步的链接,当同一文件需要在多个位置被用到的时候,就会使用到软连接。硬链接:相当于复制,占用内存空间,硬链接一旦创建,源文件和链接文件任何一方修改文件都会同步修改。

2024-11-06 20:01:51 282

原创 python中的jieba分词器

语法:jieba.cut(“语句”) / jieba.cut_for_search(“语句”)精确模式:将句子最精确地按照语义切开,适合文本分析,提取语义中存在的每个词。# 中华,中华人民,中华人民共和国,华人,人民,人民共和国,共和,共和国。搜索引擎模式:在精确模式的基础上,对长词再次切分,适合用于搜索引擎分词。jieba.cut("语句", cut_all=False)jieba.cut("语句", cut_all=True)jieba.cut_for_search("语句")写代码之前先要导入包。

2024-10-31 20:15:17 204

原创 Canal的安装与使用

我们都知道一个系统最重要的是数据,数据是保存在数据库里。但是很多时候不单止要保存在数据库中,还要同步保存到Elastic Search、HBase、Redis等等。这时我注意到阿里开源的框架Canal,他可以很方便地同步数据库的增量数据到其他的存储应用。所以在这里总结一下,分享给各位读者参考~我们先看官网的介绍canal,译意为水道/管道/沟渠,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费。这句介绍有几个关键字:增量日志,增量数据订阅和消费。

2024-10-13 20:15:13 521

原创 如何测试拉链表开发正确以及过程中会遇到的问题

因为我们从mysql导入数据到hive的时候,hive表是自己创建的,那么就会出现mysql的字段是timestamp,但是导入hive的时候变成了bigint。1、自己手动创建hive表,这样创作的表数据类型更加精准,特别是一些精度要求非常高的字段。2、可以在sqoop导入的时候,指定数据类型,以上sqoop就是指定了数据类型,使用了。如果你想测试这个效果,需要先删除之前的表,再次创建时才会看到效果。hive 的表是 sqoop 创建的,它的时间类型是 string。接着模拟第二天数据有新增,有修改。

2024-09-24 20:28:26 359

原创 关于Warning: Permanently added the ECDSA host key for IP address ‘192.168.80.133‘ to the list o解决方案

1. 删除本地known_hosts里面的缓存信息即可。命令:ssh-keygen -R "你的远程服务器ip地址"2. 输入命令:vi /etc/ssh_config。如果每次登陆虚拟机都出现这种报错!

2024-09-21 09:08:14 311

原创 【已解决】Hadoop通过主机名无法访问HDFS,或者查看文件失败报错

然后再在Windows 下打开 C:\Windows\System32\drivers\etc\。修改 hosts 文件权限(对本机用户赋予写入权限),右键改文件,做以下修改。打开 hosts 文件,将集群主机的地址和主机名的映射写入文件,保存退出。在windows本机,修改hosts映射关系。

2024-09-19 20:25:21 451

原创 使用kettle将数据从mysql导入到hdfs出现的错误

假如报:无法读取 hdfs://bigdata01:9820/home/aaaa 的问题。假如你使用了 hdfs 自带的文件夹,比如/home,会报没有权限的错误。1、查看本地是否配置了 HADOOP_HOME 的环境变量。2、spoon.bat 中是否添加了 utf8 字符集。假如你使用的是一个全新的路径,是不会报权限错误的。

2024-09-12 19:19:50 193

原创 mysql 导入 hive时报错,或者只导出一行或者两行数据

然后不需要重启 hiveserver2 以及 kettle,直接运行即可。输入是 表输入,使用 mysql ,输出是表输出,使用 hive。

2024-09-12 19:08:54 180

原创 为什么安装解压kettle时报错

因为Kettle工具是用java语言开发的,要想运行起来就必须安装jdk。

2024-09-12 18:55:42 121

原创 天阶地阶Ideal插件大杂烩

官网:https://plugins.jetbrains.com/plugin/12798-tabnine-ai-code-completion-js-java-python-ts-rust-go-php--more。官网:https://plugins.jetbrains.com/plugin/12798-tabnine-ai-code-completion-js-java-python-ts-rust-go-php--more。最好用的是可以查看到每一行代码的最近一次提交信息。

2024-09-10 19:33:29 743

原创 关于海豚调度器DolphinScheduler登录时候密码忘记或者重置的问题

此时这个密码是加密的,把这个记录删除,然后用同桌的这个账号密码在dolphinscheduler主界面登进去,再次设置密码就可以了。解决办法:此时我们就要用datagrip,找到数据库dolphinscheduler里的数据表t_ds_user,起初登录进去有默认用户名和密码,用户名为:admin,密码为dolphinscheduler123。但是呢假如你不小心忘记密码了,登录的主界面上却没有找回密码这一选项,该怎么办?不知道大家在使用DolphinScheduler时候,遇到这样的问题呢?

2024-09-09 19:07:13 443

原创 大厂招聘的通用原则和面试技巧

1.不过分解读JD和简历:JD中或简历中出现“负责人”,“专家”,不过分解读,按照实际面试结果评级。2.不局限背景:候选人没有直接相关背景并不直接定位匹配,需额外考察研发能力和软实力。不对口:具有更长工作经验需考察能力和基础。4.技术栈:不要求完全一致,相近即可。一般以通用知识,重点看理解深度和广度。Trouble-shooting基础。对口:具有更长工作经验需考察深度。对项目的原理、背景、未来是否有想法。资深候选人需考察技术细节和专业内容。并发、网络、linux基础。工作年限短的不做要求。

2024-09-07 15:14:59 112

原创 idea乱码原因分析

6.全中文字符,且大部分字符为“琨斤拷”这几个字符 以UTF-8的方式读取GBK编码的中文, 然后又用GBK的格式再次读取。2.大部分字符为小方块 以UTF-8的方式读取GBK编码的中文。

2024-09-07 12:20:05 334

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除