哒啵Q297-CSDN博客

原创 java代码保存学生信息导入到kafka的topic里，然后kafka把数据导入到hdfs

a1.sinks.k1.hdfs.path = /home/output/%Y-%m-%d # 替换为你的 HDFS URI。

2024-11-12 20:39:58 118

原创关于为什么启动不了kafka，集群也启动不了kafka的问题解决方案

这是集群命令启动后的正常状态，zookeeper和kafka都启动了。把datas里所有清空，或者直接删除这个文件夹，再新建datas的空文件夹。你再次启动集群kafka时还会出现数据，不要怕，这里保存的只是临时日志文件。这种很可能是存放日志的你自己建的文件夹满了，或者有问题。

2024-11-12 15:02:04 51

原创因为电脑卡死或者没网直接关机电脑导致虚拟机进不去的解决办法（亲测最有效）

情况一（解决办法）：打开虚拟机的安装目录，找到损坏虚拟机里的目录，把带有.lck字样的文件夹删除即可。（最重要的一点，我就是这种情况二，同事们都是情况一解决的）问题解决，逃不出这两种情况。

2024-11-11 20:16:09 118

原创 Linux中查看文件方式的几种区别

可以通过enter键，继续往后查看，继续往后查看，每次查看一行数据，点击space键，每次查看一页数据如果不想看了，可以输入 q。可以通过enter键，继续往后查看，每次查看一行数据，点击space键，每次查看一页数据，如果不想看了，可以输入 q。cat /etc/services 查看该文件，并且全部展示（管你有几万行我也全部展示）,一般用于查看小文件。tail -f /etc/services 滚动查看某个文件（一般该文件是日志文件，不断的有内容往里面写入）head 查看文本文件前10行。

2024-11-11 19:07:07 87

原创 Kafka面试夺命连环30问

Topic是逻辑上的概念，而partition是物理上的概念，每个partition对应于一个log文件，该log文件中存储的就是Producer生产的数据。由于数据同步的时候先进入Leader，随后同步给Follower，假如Follower挂掉了，Leader和其他的Follower继续往前存储数据，挂掉的节点从ISR集合中剔除，此时挂掉的Follower又重启了，他会先从上次挂掉的节点的HW开始同步数据，直到追上最后一个Follower为止，会重新回归到ISR。Partition 表示分区号；

2024-11-09 12:07:41 679

原创 Linux中的软连接、硬链接的相关知识与使用

ln， link的缩写，连接的意思，分为软链接和硬链接，一般都使用软链接。软链接：类似于Windows系统中的快捷方式，相当于复制但与复制的区别是它不占用内存空间，它包含有另一文件的位置信息，而不是文件的实际数据。它的功能是某一文件在另外一个位置建立一个同步的链接，当同一文件需要在多个位置被用到的时候，就会使用到软连接。硬链接：相当于复制，占用内存空间，硬链接一旦创建，源文件和链接文件任何一方修改文件都会同步修改。

2024-11-06 20:01:51 282

原创 python中的jieba分词器

语法：jieba.cut(“语句”) / jieba.cut_for_search(“语句”)精确模式：将句子最精确地按照语义切开，适合文本分析，提取语义中存在的每个词。# 中华,中华人民,中华人民共和国,华人,人民,人民共和国,共和,共和国。搜索引擎模式：在精确模式的基础上，对长词再次切分，适合用于搜索引擎分词。jieba.cut("语句", cut_all=False)jieba.cut("语句", cut_all=True)jieba.cut_for_search("语句")写代码之前先要导入包。

2024-10-31 20:15:17 204

原创 Canal的安装与使用

我们都知道一个系统最重要的是数据，数据是保存在数据库里。但是很多时候不单止要保存在数据库中，还要同步保存到Elastic Search、HBase、Redis等等。这时我注意到阿里开源的框架Canal，他可以很方便地同步数据库的增量数据到其他的存储应用。所以在这里总结一下，分享给各位读者参考~我们先看官网的介绍canal，译意为水道/管道/沟渠，主要用途是基于 MySQL 数据库增量日志解析，提供增量数据订阅和消费。这句介绍有几个关键字：增量日志，增量数据订阅和消费。

2024-10-13 20:15:13 521

原创如何测试拉链表开发正确以及过程中会遇到的问题

因为我们从mysql导入数据到hive的时候，hive表是自己创建的，那么就会出现mysql的字段是timestamp，但是导入hive的时候变成了bigint。1、自己手动创建hive表，这样创作的表数据类型更加精准，特别是一些精度要求非常高的字段。2、可以在sqoop导入的时候，指定数据类型，以上sqoop就是指定了数据类型，使用了。如果你想测试这个效果，需要先删除之前的表，再次创建时才会看到效果。hive 的表是 sqoop 创建的，它的时间类型是 string。接着模拟第二天数据有新增，有修改。

2024-09-24 20:28:26 359

原创关于Warning: Permanently added the ECDSA host key for IP address ‘192.168.80.133‘ to the list o解决方案

1. 删除本地known_hosts里面的缓存信息即可。命令：ssh-keygen -R "你的远程服务器ip地址"2. 输入命令：vi /etc/ssh_config。如果每次登陆虚拟机都出现这种报错！

2024-09-21 09:08:14 311

原创【已解决】Hadoop通过主机名无法访问HDFS，或者查看文件失败报错

然后再在Windows 下打开 C:\Windows\System32\drivers\etc\。修改 hosts 文件权限（对本机用户赋予写入权限），右键改文件，做以下修改。打开 hosts 文件，将集群主机的地址和主机名的映射写入文件，保存退出。在windows本机，修改hosts映射关系。

2024-09-19 20:25:21 451

原创使用kettle将数据从mysql导入到hdfs出现的错误

假如报：无法读取 hdfs://bigdata01:9820/home/aaaa 的问题。假如你使用了 hdfs 自带的文件夹，比如/home，会报没有权限的错误。1、查看本地是否配置了 HADOOP_HOME 的环境变量。2、spoon.bat 中是否添加了 utf8 字符集。假如你使用的是一个全新的路径，是不会报权限错误的。

2024-09-12 19:19:50 193

原创 mysql 导入 hive时报错，或者只导出一行或者两行数据

然后不需要重启 hiveserver2 以及 kettle，直接运行即可。输入是表输入，使用 mysql ,输出是表输出，使用 hive。

2024-09-12 19:08:54 180

原创为什么安装解压kettle时报错

因为Kettle工具是用java语言开发的，要想运行起来就必须安装jdk。

2024-09-12 18:55:42 121

原创天阶地阶Ideal插件大杂烩

官网：https://plugins.jetbrains.com/plugin/12798-tabnine-ai-code-completion-js-java-python-ts-rust-go-php--more。官网：https://plugins.jetbrains.com/plugin/12798-tabnine-ai-code-completion-js-java-python-ts-rust-go-php--more。最好用的是可以查看到每一行代码的最近一次提交信息。

2024-09-10 19:33:29 743

原创关于海豚调度器DolphinScheduler登录时候密码忘记或者重置的问题

此时这个密码是加密的，把这个记录删除，然后用同桌的这个账号密码在dolphinscheduler主界面登进去，再次设置密码就可以了。解决办法：此时我们就要用datagrip,找到数据库dolphinscheduler里的数据表t_ds_user,起初登录进去有默认用户名和密码，用户名为：admin，密码为dolphinscheduler123。但是呢假如你不小心忘记密码了，登录的主界面上却没有找回密码这一选项，该怎么办？不知道大家在使用DolphinScheduler时候，遇到这样的问题呢？

2024-09-09 19:07:13 443

原创大厂招聘的通用原则和面试技巧

1.不过分解读JD和简历：JD中或简历中出现“负责人”，“专家”，不过分解读，按照实际面试结果评级。2.不局限背景：候选人没有直接相关背景并不直接定位匹配，需额外考察研发能力和软实力。不对口：具有更长工作经验需考察能力和基础。4.技术栈：不要求完全一致，相近即可。一般以通用知识，重点看理解深度和广度。Trouble-shooting基础。对口：具有更长工作经验需考察深度。对项目的原理、背景、未来是否有想法。资深候选人需考察技术细节和专业内容。并发、网络、linux基础。工作年限短的不做要求。

2024-09-07 15:14:59 112

原创 idea乱码原因分析

6.全中文字符，且大部分字符为“琨斤拷”这几个字符以UTF-8的方式读取GBK编码的中文，然后又用GBK的格式再次读取。2.大部分字符为小方块以UTF-8的方式读取GBK编码的中文。

2024-09-07 12:20:05 334

2402_84756417的博客