Mei憨憨-CSDN博客

原创 Canal实时采集mysql TCP，kafka 连接

Canal实时采集数据库信息 TCP）Canal简介MySQL 的 BinlogBinlog 的分类连接TcpTCP测试canal连接kafkaCanal简介Canal 是用 Java 开发的基于数据库增量日志解析，提供增量数据订阅&消费的中间件。目前。Canal 主要支持了 MySQL 的 Binlog 解析，解析完成后才利用 Canal Client 来处理获得的相关数据。（数据库同步需要阿里的 Otter 中间件，基于 Canal）。MySQL 的 BinlogMySQL 的二进制日

2022-05-12 16:08:23 1110

原创 canal kafka 日常问题

问题2022-05-12 01:01:32.003 [main] ERROR com.alibaba.druid.pool.DruidDataSource - testWhileIdle is true, validationQuery not set解决方法：进入canal　　找到conf/canal.properties 文件里面的　　canal.instance.tsdb.spring.xml=classpath:spring/tsdb/h2-tsdb.xml将该信息注释掉，重新启动就

2022-05-12 10:12:12 468

原创 canal kafka 异常问题

问题查看canal 的日志信息2022-05-12 01:24:20.539 [pool-4-thread-1] ERROR com.alibaba.otter.canal.kafka.CanalKafkaProducer - Invalid partition given with record: 1 is not in the range [0…1).org.apache.kafka.common.KafkaException: Invalid partition given with reco

2022-05-12 09:46:34 907

原创打不开磁盘*或它所依赖的某个快照磁盘

在启动虚拟机时出现打不开或者它依赖于某个磁盘原因解决方式原因虚拟机为了防止有多虚拟机共用一个虚拟磁盘（后缀.vmdk的文件）造成数据的丢失和性能的削弱，每次启动虚拟机时会给每个虚拟磁盘加一个磁盘锁（后缀.lck的文件夹）对虚拟磁盘文件进行锁定保护。在关掉虚拟机时又会自动删除那个磁盘锁文件。如果非正常关机（比如系统崩溃），虚拟机来不及把已经锁定的文件解锁，所以你在启动的时候，就会提示无法锁定文件。解决方式在虚拟机的安装目录下找到*lck结尾的文件，将其全部删掉，重新启动即可...

2022-05-09 23:46:43 4651 3

原创 centos7 yum安装不上wget

虚拟机yum命令安装不了wget问题执行yum install wget 时出现错误：已加载插件：fastestmirrorLoading mirror speeds from cached hostfileThere are no enabled repos.Run “yum repolist all” to see the repos you have.To enable Red Hat Subscription Management repositories:subscription

2022-05-09 19:29:41 2286 3

原创 MobaXterm:Network error:Conection timed out

MobaXterm出现连接超时问题解决办法虚拟机在终端中输入命令ip addr 是可以查看到自己的ip地址的，但是在MobaXterm出现连接超时问题出现这个问题就是由于虚拟机网关是与主机的网关不一致所导致的。解决办法将虚拟机与主机网关配置相同查看虚拟机网卡cat /etc/sysconfig/network-scripts/ifcfg-en0 每个人都不一样，需要根据自己情况进行查询2. 配置主机网关找到控制面板并找到VMnet8配置ipv4的属性3. 配置网关4

2022-05-09 19:13:18 6461 1

原创 Gitee中SSH免密配置

Gitee中SSH免密配置在git中支持两种常用克隆的方式https和git（即ssh）来克隆仓库使用git的方式进行克隆时必须要先创建SSH公钥保证电脑与gitee之间能够免密登录没有配置过SSH 首先查看你的git登录用户配置是否正确git config --global --list如果不正确需要配置用户git config --global user.name "用户名"git config --global user.email "邮箱"配置完成之后产

2022-04-03 19:30:10 1789

原创 git （gitee）常用命令以及ideal整合

Git （gitee）常用命令以及ideal整合Git的简介Git的工作原理Git的常用命令Git在ideal中进行整合ideal整合后的基本操作Git的简介Git 是一个免费的、开源的分布式版本控制系统，可以快速高效地处理从小型到大型的各种项目。Git 易于学习，占地面积小，性能极快。它具有廉价的本地库，方便暂存区域和多个工作流分支等特性。其性能优于 Subversion、CVS、Perforce 和 ClearCase 等版本控制工具。Git的工作原理Git的常用命令git conf

2022-04-03 18:35:03 548

原创 Redis实现简单的验证码功能（简单）

Redis的简单验证码原理代码实现此次代码仅适合初学者进行学习Redis，能够初步的掌握Redis在ideal中的基本操作,代码简单易懂原理生成随机的验证码。可以通过java的Random随机函数进行产生建立函数生成key ，设置Redis设置过期时间，并将key值与验证码写入到Redis中读取生成的验证进行校验代码实现创建maven项目配置pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns

2022-03-20 17:10:21 3113

原创 HbaseAPI 表操作

HbaseApI 对表增,删,改,查一， Hbase数据库命令合集二，HbaseApi 操作HbaseApi 环境搭建hbase静态代码块（公共使用部分）Hbase 创建命名空间Hbase判断表是否存在Hbase创建表Hbase删除表Hbase 删除数据Hbase 查询表内容Hbase 插入表格数据Hbase 主方法一， Hbase数据库命令合集./start-hbase.sh :启动hbase命令./stop-hbase.sh :关闭hbase命令./bin/hbase-daemon.sh

2022-03-15 14:47:00 3204

原创 datanode节点启动不起来

datanode启动不了）原因：datanode的数据节点启动不起了，大多数情况下就是执行==./hadoop namenode -format==命令，导致出错。解决办法：找到Hadoop的安装目录的tmp 目录，删除tmp目录或者找到tmp目录下hdfs/data将其删除，然后再重新执行一次格式化命令就可以启datadnode节点了...

2022-03-15 12:28:24 4421 2

原创 Centos中IP地址的动静转换

虚拟机在使用中ip地址突然消失问题方法一方法二问题问题：在使用虚拟机的过程中，在查询ip地址的过程中发现ip地址突然消失，导致无法重新连接上虚拟机，其他功能无法正常使用。出现如下情况：方法一打开虚拟机点击编辑更改虚拟机的ip地址的租用时间；利用管理员权限更改设置租用时间最大63天保存应用退出即可方法二解决办法：将虚拟机的ip地址设置为静态ip，永久有效就不会再改变了1.进入到network-scripts目录 ,找到ifcfg-eno(这里每个人都不一样哈但是都是这种形

2022-03-15 11:58:45 3291

原创 HBase基础入门

HBase基础入门Hbase 的简介Hbase的结构hbase 的逻辑结构hbase 的物理结构hbase 的数据模型hbase 入门安装文章内容根据尚硅谷大数据技术hbase学习持续更新，，，Hbase 的简介HBase 是一种分布式、可扩展、支持海量数据存储的 NoSQL 数据库。逻辑上，HBase 的数据模型同关系型数据库很类似，数据存储在一张表中，有行有列。但从 HBase 的底层物理存储结构（K-V）来看，HBase 更像是一个 multi-dimensional map。ps:与m

2022-03-15 10:19:22 7191

原创 SparkStreaming+kafka+flume实现日志的实时处理并且将数据实时更新数据库

SparkStreaming+kafka+flume实现日志的实时处理环境准备项目思路实验环境启动配置编写项目代码启动测试环境准备1 三台安装Hadoop的虚拟机2 flume的安装参考flume的大数据集群安装3 kafka 安装参考kafka集群4 windows +ideal+mysql项目思路利用ideal产生实时的日志，利用log4j文件，将日志文件实时采集到flume上面，利用kafka来进行监听传输，通过sparkStreaming 对产生的日志文件进行计算,并且实时

2021-12-05 12:10:10 2919

原创 Scala2.11.8的安装步骤，以及idea的配置

Scala 的配置一下载Scala2.11.8二开始安装三配置Scala2.11.8系统的环境变量四 idea的配置一下载Scala2.11.8下载地址Scala2.11.8网站中有许多关于scala各种版本，按需求下载二开始安装1 将下载的scala2.11.8的msi的文件剪切到指定文件夹（方便用户配置环境变量，我这里是将msi 的存放地址就是我的安装目录）2 双击点击安装（如果以前安装了其他版本Scala需要将其他版本的Scala卸载）一直点击next，或者同意协议，然后选择

2021-11-30 19:30:36 3329

原创 Flume大数据集群安装

Flume大数据集群安装一 flume 的简介二 flume的环境准备三 flume的安装步骤四运行测试flume五遇见的问题和注意事项一 flume 的简介Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据;同时，Flume提供对数据进行简单处理，并写到各种数据接受方(可定制)的能力。flume的组合形式：Multiplexing the flow（选择分流）二

2021-11-26 10:28:52 3138

原创 python 对英文句子分词，去重，排序

题目：给定如下一段英文A major drawback of cross-network recommender solutions is that they can only be applied to users that are overlapped across networks. Thus, the non-overlapped users, which form the majority of users are ignored. As a solution, we propose CnGAN

2021-11-21 11:52:19 2540

原创 SparkStreaming累加计算单词出现的频率

SparkStreaming累加计算单词出现的频率一.需求分析二，实验环境三，思路分析四，编程思想五.遇见的问题一.需求分析服务器中不断产生的数据，通过sparkstreaming的客户端统计服务器端不断产生的相同数据，即就是累计服务器中相同数据出现次数。二，实验环境centos7+nc+Spark-2.4.8+windows+idea三，思路分析思路：以windows 为客户端，在idea中编写对服务端要统计累加求和的方法,以centos7的Linux为客户端，内存作为数据的产生端，

2021-11-21 11:21:22 1610

A3213383291的博客