两点半holy
码龄7年
关注
提问 私信
  • 博客:31,351
    31,351
    总访问量
  • 24
    原创
  • 129,621
    排名
  • 24
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:安徽省
  • 加入CSDN时间: 2018-06-20
博客简介:

qq_42496461的博客

查看详细资料
  • 原力等级
    当前等级
    3
    当前总分
    274
    当月
    6
个人成就
  • 获得27次点赞
  • 内容获得9次评论
  • 获得63次收藏
创作历程
  • 2篇
    2024年
  • 11篇
    2023年
  • 1篇
    2022年
  • 1篇
    2021年
  • 4篇
    2020年
  • 5篇
    2019年
兴趣领域 设置
  • 大数据
    hadoophivesparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Netty实现数据上下行

因为Netty服务器是集群,会把客户端的唯一标识符和连接服务器的地址存在数据库里,在平台调用下行命令时,先找到netty连接的服务器。Netty的Handler 提供了一系列对数据的处理方法,与登录handle与数据处理handle分开。新建spring boot server项目 并配置邮件告警。任务监控 使用springbootadmin查看。只需要在pom中引入依赖,配置如开始所示。Spring bootadmin监控界面。在登陆成功后移除登陆handle。日志使用pumelog查看。
原创
发布博客 2024.07.26 ·
434 阅读 ·
3 点赞 ·
0 评论 ·
5 收藏

使用LVS+NGinx+Netty实现数据接入

AIO:异步非阻塞,AIO引入了异步通道的概念,采用了Proactor模式,简化了程序编写,有效的请求才启动线程,他的特点是先由操作系统完成后才通知服务端程序启动线程去处理,一般适用于连接数较多且链接时间较长的应用。BIO:同步阻塞IO,也就是传统阻塞型的IO,服务器实现模式是一个连接对应一个线程。NIO:同步非阻塞IO,服务器实现模式是一个线程处理多个请求,客户端发送的链接请求都会注册到多路复用器上,多路复用器轮询到链接有IO请求就进行处理。:虚拟路由的ID,用于在VRRP组中标识不同的虚拟路由器。
原创
发布博客 2024.07.18 ·
1119 阅读 ·
11 点赞 ·
0 评论 ·
25 收藏

基于32960协议的解析报文

发布资源 2023.11.08 ·
java

DataX和dataX-web 集群部署及使用

DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。datax-web集群部署 一个datax-web和多个datax-executor。在jdbc url增加配置 在没有服务器身份验证的情况下建立SSL连接\设置useSSL=false来显式禁用SSL。的任务构建是负责自动生成dataX用的json文件,如果已经有json文件 就不需要使用。下的日志能查到日志文件。
原创
发布博客 2023.10.06 ·
2290 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Flink IntervalJoin 笔记

之后就是计算cleanupTime,调用internalTimerService.registerEventTimeTimer注册清理该element的timer,定时的清理时间,就是当下流入的数据的时间+relativeUpperBound,当watermark大于该时间就需要清理。)将数据输出给ProcessJoinFunction调用,ourTimestamp表示流入的数据时间,timestamp表示对应join的数据时间,不满足要求的直接跳过,满足要求的就调用collect方法(
原创
发布博客 2023.04.24 ·
623 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink主要有两种基础类型的状态:operator state。

对应的initializeState()在每次初始化用户定义的函数时调用,可以是在函数第一次初始化时调用,也可以是在函数实际从较早的checkpoint恢复时调用。推荐使用managed state(而不是raw state),因为使用managed state,当并行度变化时,Flink可以自动的重新分布状态,也可以做更好的内存管理。ListCheckpointed接口是CheckpointedFunction的一个有限制的变体,它只支持列表样式的状态,在恢复时使用均分重分区方案。
原创
发布博客 2023.04.22 ·
532 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink主要有两种基础类型的状态:keyed state

它维护了状态的名称(稍后将看到,你可以创建多个状态,因此他们必须有唯一的名称,以便你可以引用它们),状态维护的值的类型,和可用户定义function,例如ReduceFunction。推荐使用managed state(而不是raw state),因为使用managed state,当并行度变化时,Flink可以自动的重新分布状态,也可以做更好的内存管理。ValueState:它会保存一个可以被更新和查询的值(受限于上面提到的输入元素的key,算子看到的每个key可能仅一个值)。
原创
发布博客 2023.04.22 ·
622 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HBase的表设计笔记

一个常见的数据处理问题是快速获取数据的最近版本,使用反转的时间戳作为rowkey的一部分对这个问题十分有用,可以用 Long.Max_Value - timestamp 追加到key的末尾,例如 [key][reverse_timestamp] , [key] 的最新值可以通过scan [key]获得[key]的第一条记录,因为HBase中rowkey是有序的,第一条记录是最后录入的数据。如果知道hbase数据表的key的分布情况,就可以在建表的时候对hbase进行region的预分区。
原创
发布博客 2023.04.22 ·
520 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

推荐系统搭建全程图文攻略

推荐整体从数据处理开始,默认数据从关系型数据到每天增量导入到hive,在hive中通过中间表和调用python文件等一系列操作,将数据处理为算法数学建模的入口数据,这里只是模拟一下,所以用一个scala文件产生所有准备数据,并直接load到hive中去做数据处理。将导出的数据作为输入放在recommend类中执行,参见附件recommond.scala文件,参数为四个,分别是spark执行的模式,输入数据文件路径,分隔符和输出数据路径,注意这里分割是tab键或者是逗号,因为源数据中的分隔符号不统一。
原创
发布博客 2023.04.22 ·
2467 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

大数据常用的面试问题笔记

1.Reducer通过Http方式得到输出文件的特定分区的数据。2.排序阶段合并map输出。然后走Reduce阶段。3.reduce执行完之后,写入到HDFS中。3.Yarn的组件1. ResourceManager主要功能是:(1)接收用户请求(2)管理调度资源(3)启动管理am(4)管理所有nm,处理nm的状态汇报,向nm下达命令。2.Container:yarn的应用都是运行在容器上的,容器包含cpu,内存等信息。
原创
发布博客 2023.04.22 ·
506 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flume 实时日志收集系统

案例一: NetCat Source:监听一个指定的网络端口,即只要应用程序向这个端口里面写数据,这个source组件就可以获取到信息。然后用telnet协议来通过端口传递信息flume官网中NetCat Source描述:type – 组件的类型bind – 日志需要发送到的主机名或者Ip地址,该主机运行着netcat类型的source在监听。
原创
发布博客 2023.04.22 ·
954 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

学习spark笔记

返回的是一个含前k个元素的数组。join:对两个需要连接的 RDD 进行 cogroup函数操作,将相同 key 的数据能够放到一个分区,在 cogroup 操作之后形成的新 RDD 对每个key 下的元素进行笛卡尔积的操作,返回的结果再展平,对应 key 下的所有元组形成一个集合。saveAsObjectFile 算子:将分区中的每10个元素组成一个Array,然后将这个Array序列化,映射为(Null,BytesWritable(Y))的元素,写入HDFS为SequenceFile的格式。
原创
发布博客 2023.04.22 ·
492 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Data X

当 JobContainer和TaskGroupContainer 运行在同一个进程内时,就是单机模式(Standalone和local);当他们分布在不同的进程中执行就是分布式(distributed)DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。框架为插件提供物理上的执行能力(线程)。datax-web 集群部署时单独起某一个功能。(需要python环境)
原创
发布博客 2023.04.22 ·
554 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

关于机器学习的个人学习笔记

发布资源 2023.04.22 ·
docx

Ambari 搭建

基于华为云服务器 CentOS 7.x 搭建Ambari集群
原创
发布博客 2023.01.11 ·
445 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

搭建LVS负载均衡

华为云服务器 安装LVS 需要 VPC产品(做虚拟IP)。需要提前联系IT部门在控制台页面做虚拟ip绑定。规划两台 LVS服务器,两台NGinx服务器,两台部署Netty程序服务器。LVS 模块内嵌lvs模块,只需要ipvsadm和keepalived安装。
原创
发布博客 2022.10.17 ·
1105 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

MLSQL 的小记

???? MLSQL 的小记MLSQL 解决了哪些问题一. 配置 MLSQL源码地址 engine和cluster源码地址 console1. mlsql-engine 模块下图 mlsql_18.png 为 节点启动mlslq-engine 命令打印出的 为命令谁需要的变量windows环境下调试代码:idea 打包在下载代码,修改package.cmd 。执行package.cmd 即可打包。set MLSQL_SPARK_VERSIOIN=2.4set DRY_RUN=false
原创
发布博客 2021.01.12 ·
725 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Kerberos 使用小记

Kerberos 使用小记背景:使用一个spark集群(集群上有hbase 等大数据组件),去连接另一个集群上的 Kerberos 认证的 hbase 集群。基于mlsql 去连接。使用 yarn-client 模式。将 krb5.conf 和 wc1-ods.keytab 文件分发到所有集群节点的同一路径下。 使用spark newAPIHadoopRDD的方式去读 最好重写 TableInputFormat 的方法 在里面加入Kerberos认证报错20/10/19 16:08:24 ERROR
原创
发布博客 2020.11.06 ·
3917 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

关于RDD、DataFrame和Dstream的几个常识(补充 DataSet)的笔记

RDDSpark 编程每一个 spark 应用程序都包含一个驱动程序(driver program),会运行用户的 main 函数,并在集群上执行各种并行操作(parallel operations)spark导图.xmindRDD的基础知识五个特征a list of partiotioner有很多个partiotioner(这里有3个partiotioner)。可以明确的说,一个分区在一台机器上,一个分区其实就是放在一台机器的内存上,一台机器上可以有多个分区。a function for
原创
发布博客 2020.07.30 ·
1340 阅读 ·
0 点赞 ·
0 评论 ·
9 收藏

wangyi.zip

发布资源 2020.03.20 ·
zip
加载更多