BarackHusseinObama
码龄11年
  • 422,037
    被访问
  • 57
    原创
  • 1,707,135
    排名
  • 81
    粉丝
关注
提问 私信

个人简介:好玩,Interesting

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:四川省
  • 加入CSDN时间: 2011-04-01
博客简介:

程序员进阶之路

博客描述:
On the way
查看详细资料
个人成就
  • 获得143次点赞
  • 内容获得128次评论
  • 获得293次收藏
创作历程
  • 2篇
    2020年
  • 7篇
    2019年
  • 13篇
    2018年
  • 12篇
    2017年
  • 28篇
    2016年
  • 1篇
    2015年
  • 4篇
    2014年
成就勋章
TA的专栏
  • 数据同步项目总结
    1篇
  • Hadoop 原理学习
    17篇
  • 程序开发
    40篇
  • Linux
    3篇
  • 数据库
    3篇
  • 生活感悟
    1篇
  • 最近
  • 文章
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

数据同步项目总结2-数据流

数据流是指数据从源端存储库到目的端存储库的一个流动过程,这个过程与数据的有序性、吞吐量、安全点、统计等功能或特性息息相关,经过多次调整,最终在线上环境的测试中,单个作业的 SQLServer -> Kafka 的同步速度能够维持在 3800000+ rows、480M 每分钟的同步速度(线上环境硬件配置好,开发环境性能下降 3.5 倍左右),尽管多线程任务的数量没有刻意增大,但是这已经能满足...
原创
发布博客 2020.03.24 ·
502 阅读 ·
1 点赞 ·
3 评论

数据同步项目总结1-数据实时同步的要点

目录一、高效的数据同步模型流式 + 批次的数据同步模型多任务多通道/单通道的线程模型二、数据的一致性与时序性1. 数据全局有序2. 数据以主键为单位的顺序一致三、游标与断点续传四、总结这里的数据实时同步是指近乎实时的将数据从源端数据库同步到其它目的端数据库的一种方式,比如 MySQL 中的数据在发生变化时,系统能够尽可能实时的将这部分变化的数据同步到 HBase 中或其他目的端。与离线数据同步不...
原创
发布博客 2019.12.17 ·
1345 阅读 ·
1 点赞 ·
0 评论

一次 JVM 占用 CPU 资源过高的问题排查

早晨刚到公司就收到服务器 CPU 持续飙高在 400% 左右的邮件。因为是新的服务器,上面只在一个 docker 中跑了一个 Java 应用,所以大致可以确定就是它的问题,接下来就是如何通过工具定位具体代码的问题了。大致的处理思路如下:定位系统中引发问题的进程定位进程中引发问题的线程定位线程中引发问题的代码如果能找到出问题的代码段,那么问题也就好解决了。1. 定位引发问题的进程与线程...
原创
发布博客 2019.08.03 ·
2403 阅读 ·
0 点赞 ·
0 评论

Kafka 学习与使用总结

一、Kafka 简介kafka 是一个分布式流处理平台,主要适用于以下场景:构造实时流数据管道,它可以在系统或应用之间可靠地获取数据。 (相当于message queue) ;构建实时流式应用程序,对这些流数据进行转换或者影响。 (就是流处理,通过 kafka stream topic 和 topic 之间内部进行变化)。有如下特点:Kafka作为一个集群,运行在一台或者多台服务器...
原创
发布博客 2019.07.03 ·
562 阅读 ·
1 点赞 ·
0 评论

SQLServer 数据异构实时同步之数据时序的问题

文章目录一、简介二、数据时序的问题三、数据以主键为单位的有序四、数据操作被重复发送五、数据操作的重复发送与影响六、结论一、简介数据异构实时同步是指将数据从源端数据库近实时的同步至目的端数据库的一个过程,比如将 SQLServer 中的数据同步至 HBase 或 Kafka 中。不同于离线同步,实时同步需要解决变更数据采集与数据时序等问题,以此保证数据的一致性。不同于 MySQL 可以通过解...
原创
发布博客 2019.04.09 ·
1085 阅读 ·
0 点赞 ·
0 评论

HBase Timestamp 与幂等性

HBase 的数据模型包括表(Table)、行(Row)、列族(Column Family)、列限定符(Column Qualifier)、单元格(Cells)、时间戳(Timestamp),其中单元格是行与列的交叉点,用来存储数据值,而 timestamp 则是每个值的版本号标识。默认情况下,timestamp 的值是更新数据时的当前时间戳,由系统自动更新,并不太被被关注,但是在实际的项目中,如...
原创
发布博客 2019.03.29 ·
2638 阅读 ·
0 点赞 ·
0 评论

DataX 中流的速度限制

概述这里的流的速度限制是指在单位时间窗口内,最多允许指定的单位数据通过。比如我们需要从源端 A 发送 1000 条数据到目的端 B,如果设置的速度限制为最多 100 条每秒,那么理论上需要 10 秒的时间才能将数据传输完成,即使当前的网络允许在极短的时间便完成这个任务。但是我们没办法严格控制每秒时间内的数量一定是小于等于 100 的,因为我们不能每传输一条数据便进行速度与其控制的计算,这样会极...
原创
发布博客 2019.03.06 ·
7991 阅读 ·
0 点赞 ·
9 评论

一款简洁的税后工资计算器(2019)

一款简洁的税后工资计算器,地址:http://kentt.top/tools/personal-tax/,特点:1. 支持自定义社保基数/比例、公积金基数/比例、个税起征点;2. 可对比改革前后数据;3. 可查看各支出所占比例;4. 无任何广告
原创
发布博客 2020.06.22 ·
17633 阅读 ·
4 点赞 ·
0 评论

CDH-Hadoop 安装

一、 摘要二、安装1. 基础环境配置1) 主机介绍2) 配置 sudo 无密3) 配置 SSH 无密登陆以及其它基础配置2. 检查系统环境配置3. 安装依赖数据库3.1 MySQL3.1.1 安装3.1.2 启动3.1.3 安装 MySQL JDBC Connector3.1.4 确认 MySQL 服务有开机启动3.1.5 创建 Cloudera Manager ...
原创
发布博客 2018.09.16 ·
1162 阅读 ·
1 点赞 ·
0 评论

JHipster 中的设计(1)RESTful API Response 与异常处理的设计

一、 Response 设计在JHipster生成的项目中,RESTful API的Response相比一些传统的方式,特别的依赖了Response.header来传输一些附加信息,比如分页请求结果中的总数、执行的方法代码等。下面以用户相关接口为例: name method uri body Get User GET /users/{userId} ...
原创
发布博客 2018.07.18 ·
3866 阅读 ·
4 点赞 ·
2 评论

Hadoop 原理学习(8)Yarn 概述及其基本原理

一、Yarn 简介二、Yarn 组件ResourceManager (RM)ApplicationMaster(AM)NodeManager(NM)Container(容器)三、提交任务流程客户端向RM提交任务流程运行状态交互四、总结五、参考链接一、Yarn 简介Yarn 是 hadoop 集群的资源管理层。它允许不同的数据处理引擎(...
原创
发布博客 2018.07.18 ·
545 阅读 ·
1 点赞 ·
0 评论

Hadoop 原理学习(7)HBase 架构与工作原理5 - Region 的部分特性

RegionRegion 是表格可用性和分布的基本元素,由列族(Column Family)构成的 Store 组成。对象的层次结构如下:- Table - Region - Store (由每个 Region 中的列族组成的存储块) - MemStore (每个 Region 中存储在内存中的 Store) ...
原创
发布博客 2018.06.14 ·
393 阅读 ·
1 点赞 ·
0 评论

Hadoop 原理学习(6)HBase 架构与工作原理4 - 压缩、分裂与故障恢复

CompacationHBase 在读写的过程中,难免会产生无效的数据以及过小的文件,比如:MemStore 在未达到指定大小便刷新数据以写入到磁盘;或者当已经写入 HFile 的数据被删除后,原数据被标记了墓碑,却仍然存在于 HFile 之中。在这些情况之下,我们需要清除无效的数据或者合并过小的文件来提高读的性能。这种合并的过程也被称为 compacation。HBase 中使用的 co...
原创
发布博客 2018.05.31 ·
565 阅读 ·
0 点赞 ·
0 评论

Hadoop 原理学习(5)HBase 架构与工作原理3 - HBase 读写与删除原理

一、前言在 HBase 中,Region 是有效性和分布的基本单位,这通常也是我们在维护时能直接操作的最小单位。比如当一个集群的存储在各个节点不均衡时,HMaster 便是通过移动 Region 来达到集群的平衡。或者某一个 Region 的请求过高时,通过分裂 Region 来分散请求。或者我们可以指定 Region 的 startKey 和 endKey 来设计它的数据存放范围等等。所...
原创
发布博客 2018.05.30 ·
1924 阅读 ·
0 点赞 ·
0 评论

Hadoop 原理学习(4)HBase 架构与工作原理2 - HBase 组件

一、HBase 组件概览Master-Slave 模式: HBase 体系结构遵循传统的 master-slave 模式,由一位掌握决策的主设备和一个或多个真正处理任务的从设备组成。在 HBase 中,主设备称为 HMaster,从设备被称为 HRegionServers,主从设备之间则通过 Zookeeper 共享状态信息。HBase 组成: 从物理层面,HBase 由 3 个部分:...
原创
发布博客 2018.05.27 ·
690 阅读 ·
0 点赞 ·
0 评论

Hadoop 原理学习(3)HBase 架构与工作原理1 - HBase 的数据模型

一、应用场景二、Table 组成元素表(Table)行(Row)列族(Column Family)单元格(Cells)三、示例逻辑视图物理视图参考链接一、应用场景HBase 与 Google 的 BigTable 极为相似,可以说 HBase 就是根据 BigTable 设计的,这一点在 BigTable 论文中也能发现。在 BigTab...
原创
发布博客 2018.05.17 ·
414 阅读 ·
0 点赞 ·
0 评论

Hadoop 原理学习(2)HDFS 架构与工作原理

一、目标HDFS 全称 Hadoop 分布式文件系统,其最主要的作用是作为 Hadoop 生态中各系统的存储服务。面对大规模的数据,HDFS 在设计上满足了以下目标:高度容错性: HDFS 可能由成百上千的服务器构成,任何一个组件都可能失效,因此错误检测和快速、自动的恢复时 HDFS 最核心的架构目标。支持大规模数据集: 运行在 HDFS 应用具有很大的数据集,它应该能提供整体...
原创
发布博客 2018.04.05 ·
1902 阅读 ·
0 点赞 ·
0 评论

Google GFS, BigTable, MapReduce 论文中文版地址

GFS 论文: http://blog.bizcloudsoft.com/wp-content/uploads/Google-Bigtable中文版_1.0.pdf BigTable 论文:http://blog.bizcloudsoft.com/wp-content/uploads/Google-Bigtable中文版_1.0.pdf MapReduce 论文:http://blo...
原创
发布博客 2018.04.05 ·
751 阅读 ·
0 点赞 ·
2 评论

Hadoop 原理学习(1)Hadoop 各服务的作用简述

注:以下服务为基于安装Hadoop 2.6.0-cdh5.8.3后的所得服务,但并不是全部。1. HDFSNameNodeNameNode是一个中心服务器,负责管理文件系统的namespace以及客户端对文件的访问。NameNode执行文件系统的namespace操作,比如打开、关闭、重命名文件或目录。同时它还确定block到DataNode节点的映射。Namenode...
原创
发布博客 2018.03.20 ·
3633 阅读 ·
0 点赞 ·
0 评论

[Angular Directive] 输入框禁止为空字符串与自动去除空格指令

一、前言input 输入框自带了required属性,用以表单验证,但是只要有字符,即使全为空格也能通过required验证,这无法满足一些应用场景,所以需要自定义一些指令,用来满足验证全为空格的输入。在使用自定义的 Directive 修改 input 输入框值或属性时,需要注意:请尽量使用 Angular 提供的类或方法来修改输入框的值, 以免ngModel无法同步;同上,使用
原创
发布博客 2018.01.30 ·
2414 阅读 ·
0 点赞 ·
1 评论
加载更多