架构师思考实践
码龄13年
  • 747,113
    被访问
  • 162
    原创
  • 634,116
    排名
  • 145
    粉丝
关注
提问 私信

个人简介:大数据、实时计算、离线计算

  • 加入CSDN时间: 2009-06-16
博客简介:

架构师思考实践

博客描述:
Life is too short, don’t live the same day twice.
查看详细资料
个人成就
  • 获得237次点赞
  • 内容获得71次评论
  • 获得213次收藏
创作历程
  • 8篇
    2021年
  • 4篇
    2020年
  • 7篇
    2017年
  • 7篇
    2016年
  • 12篇
    2015年
  • 98篇
    2014年
  • 149篇
    2013年
  • 1篇
    2012年
成就勋章
TA的专栏
  • 思维提升
    1篇
  • Flink
    6篇
  • 研究生
  • mac
    1篇
  • java深度探究
    48篇
  • Hadoop学习与使用
    45篇
  • Linux编程与维护
    25篇
  • HBase
    8篇
  • C/C++
    18篇
  • 算法研究
    9篇
  • SSH/jsp/sevlet
    11篇
  • mysql
    7篇
  • zookeeper
    5篇
  • memcache
    9篇
  • Android
    3篇
  • 游戏开发
    2篇
  • 图形图像
    7篇
  • tomcat
    8篇
  • 前台页面
    6篇
  • 数据挖掘/机器学习
    3篇
  • 网络
    1篇
  • Hive
    15篇
  • maven/svn/git
    6篇
  • 工具技巧
    1篇
  • thrift
    2篇
  • python
    2篇
  • Spark
    1篇
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
  • 数据库管理
    数据仓库
  • 最近
  • 文章
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

十分钟读完《金字塔原理》

十分钟读完《金字塔原理》作者简介芭芭拉·明托 (Barbara Minto)哈佛商学院第一批女学员之一,麦肯锡顾问公司有史以来第一位女性顾问。一个致力于为人们提供训练思考、表达和解决问题的逻辑的专业咨询培训人士,1973年成立个人公司-明托国际公司(Minto International Inc.),为社会各界人士讲授金字塔原理,该理论应用遍及美国、欧洲、澳大利亚、新西兰等国家和地区绝大部分公司和管理咨询公司。推荐语比起欣赏一朵花漫溢的馨香,我们需要更加关注它盛开的过程。一些人...
转载
发布博客 2021.04.06 ·
239 阅读 ·
1 点赞 ·
0 评论

【FlinkSQL】一文读懂流join方式

目录一、常规join二、时间窗口join三、时态表join基于事件时间的时态 Join基于处理时间的时态 Join四、时态表函数join对于离线计算、批处理,join操作比较好理解,可以参考文章hive 各种 join (left outer join、join、full outer join)。但是数据流的join和离线join是有差异的,流是无限的,没有边界的。目前Flink Sql有四种join方式。一、常规join需要将所有的历史记录存放到state中,所有历史.
原创
发布博客 2021.03.30 ·
694 阅读 ·
0 点赞 ·
0 评论

【FlinkSQL】一文读懂 动态表-时态表

一、FLink Sql 简介Flink SQL 是基于Apache Calcite来实现的标准 SQL。它是一种关系型 API,可以来做流批统一处理。不管是在有限批数据上还是在无限的流式数据上,Flink Sql都有相同的语义。二、动态表 (Dynamic Table)...
原创
发布博客 2021.03.28 ·
505 阅读 ·
0 点赞 ·
0 评论

Flink基础概念

1、keyby、partitionCustom 区别(1)KeyBy DataStream → KeyedStream: 通过制定字段,将流转化成带key的流,之后相同key的数据,分发到相同的算子上。属于逻辑上的分区。 dataStream.keyBy("someKey") // 通过 "someKey"进行分组 dataStream.keyBy(0) // 通过Tuple的第一个元素进行分组(2)物理分区(1)Custom partitioning...
原创
发布博客 2021.03.24 ·
265 阅读 ·
0 点赞 ·
0 评论

Flink架构

FLink是一个有状态的分布式实时计算架构。一、Flink API介绍1、最底层的是有状态的流处理,已经继承到DataStream API中,一般不直接使用。2、第二层核心API,分为流处理DataStream和批处理DataSetAPI,一般用于java、scala开发,使用较多。3、第三层TableAPI,以表为中心的声明式编程API,可以把一个流程定义为一个table,有元数据schema,可以执行部分sql操作,例如select、join等。table api可以和第二层API很
原创
发布博客 2021.03.11 ·
92 阅读 ·
0 点赞 ·
2 评论

Error: homebrew-core is a shallow clone.

mac brew update 失败,报错信息如下:解决办法:cd /usr/local/Homebrew/Library/Taps/homebrewrm -rf homebrew-corerm -rf homebrew-caskbrew upgrade
原创
发布博客 2021.02.24 ·
1340 阅读 ·
0 点赞 ·
0 评论

Flink Mac本地安装、运行

一、flink本地安装先看下是否有java,不过没有也没事,用的是open-jdk,命令如下:#1、查看java版本java -version#2、安装flinkbrew install apache-flink#3、查看flink版本flink --version
原创
发布博客 2021.02.26 ·
386 阅读 ·
0 点赞 ·
0 评论

Flink watermark浅析

一、功能问题:Flink实时计算使用窗口时,消息会乱序,使用Event Time计算时,会有消息晚到。解决方案:假设我们把延迟超过5秒的消息丢掉(或特殊处理),那么在每条消息上打一个时间戳(watermark 水位线),这个时间是事件时间减去5s,表示的含义是这个水位线之前的数据都到了,告诉窗口可以出发计算了。补充时间概念:(1)事件时间:业务系统的业务发生或更新时间。(2)抽取时间:进入到消息队列的时间。(3)处理时间:实时计算的时间。二、原理1、watermark本.
原创
发布博客 2021.02.22 ·
91 阅读 ·
0 点赞 ·
0 评论

Hive--对空值和NULL的处理

问题描述Hive中默认将NULL存为\N,NULL类型的字符串如何检索?创建一个测试表及准备测试数据,SQL如下:create table test_null (id int, age string) ROW FORMAT DELIMITEDFIELDS TERMINATED BY ','LINES TERMINATED BY '
'STORED AS TEXTFILE;测试数据如下:1,232,24c3,32d4,305,NULL6,\N将数..
转载
发布博客 2020.10.04 ·
908 阅读 ·
0 点赞 ·
0 评论

java使用--Exception 异常信息 StackTraceElement

在某些场景下,直接使用e.printStackTrace(); 或者使用log4j打印异常,在日志收集系统中不好检索。下面方法将异常拼接成一行,使用 StackTraceElement。package com.ajl.usage.exception;/** * @Author anjinlong * @create 2020-10-02 17:05 * @description description */public class ExceptionUsage { ...
原创
发布博客 2020.10.02 ·
335 阅读 ·
0 点赞 ·
0 评论

java用法--HashMap putAll

类:HashMap方法:putAll()作用:将map2的数据全部放入到map1中,如果map1中已经存在key则更新,如果不存在则插入。测试代码:public static void putAllTest() { System.out.println("putAll 将map2的数据全部放入到map1中,如果map1中已经存在key则更新,如果不存在则插入。"); HashMap<String, String> map1 = new H.
原创
发布博客 2020.10.02 ·
170 阅读 ·
0 点赞 ·
0 评论

Git: Github提示Key is already use

背景:在Github中为用户添加SSH Key的时候报Key is already use,根据错误提示很显然,所添加的SSH Key已经被其他账号使用后,才会出现这个错误。现在有两种解决办法,第一,找到帐号删除Key;第二,重新生成Key找到使用该Key的帐号,在Github个人信息中有SSH and GPG keys这一栏,管理着所有的SSH Keys,找到匹配的Key删除,另外一个账号就可以使用该Key了重新生成SSH Key,仅需几个简单的步骤1.打开终端2.输入以下命令,并执行$ s
转载
发布博客 2020.09.28 ·
173 阅读 ·
0 点赞 ·
0 评论

HDFS 写流程

待写,敬请期待
原创
发布博客 2017.07.10 ·
414 阅读 ·
0 点赞 ·
0 评论

hadoop HDFS Federation

参考文档:http://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-hdfs/Federation.html
原创
发布博客 2017.07.10 ·
372 阅读 ·
0 点赞 ·
0 评论

Hadoop partitioner及自定义partitioner

一、hadoop partitioner所有partitioner都继承自抽象类Partitioner ,实现getPartition(KEY var1, VALUE var2, intvar3),hadoop自带的partitioner有:(1)TotalOrderPartitioner(2)KeyFieldBasedPartitioner(3)BinaryPartiti
原创
发布博客 2017.07.10 ·
605 阅读 ·
0 点赞 ·
0 评论

Hadoop MapReduce 修改输出文件名 MultipleOutputs

需求:修改mapreduce的输出文件名称 为自己想要的名字工具:MultipleOutputs默认文件名:part-r-xxx 或者000178_0修改后为: 自定义名字-r-xxx 后边的r-xxx还没有去掉主要流程:声明 multipleOutputs在setup方法中初始化在reduce方法中调用 public voidwrite(KEYOUT key, VALUEOUT value, String baseOutputPath)在cleanup放中close
原创
发布博客 2017.07.07 ·
2307 阅读 ·
0 点赞 ·
0 评论

HBase源码分析 -- HBase Region 拆分(split)

代码版本:hbase-1.2.6工程:hbase-server类:org.apache.hadoop.hbase.regionserver.HRegion1、判断是否需要切分方法: checkSplit返回值: splitpoint做了一些判断后,其实是调用:byte[] ret = splitPolicy.getSplitPoint();2、切分策略o
原创
发布博客 2017.07.01 ·
777 阅读 ·
0 点赞 ·
0 评论

hive优化总结

1、列裁剪、分区裁剪只查询需要的字段和分区,不使用select*2、join优化小表放左边3、空值处理(1)NULL和数字相加的问题,为避免这种情况先nvl 或者coalesce 先处理(2)NULL 值关联时,可排除掉不参与关联,也可随机分散开避免倾斜4.    排序优化不需要全局排序时,可用distribute by sort by  而不用
原创
发布博客 2017.06.11 ·
912 阅读 ·
0 点赞 ·
0 评论

一次hive reduce oom 处理:Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTas

问题: hive job失败,现象reduce失败,起了新的reduc而后还是失败,最终job失败错误:2017-06-07 16:43:20 INFO Examining task ID: task_*** (and more) from job job_***2017-06-07 16:43:21 INFO FAILED: Execution Error, return code
原创
发布博客 2017.06.11 ·
16306 阅读 ·
4 点赞 ·
0 评论

hive2.0 存储过程 hplsql

在hive2.0中集成了hplsql,可用用hplsql命令执行存储过程。hplsql是一个开源项目,地址:http://www.hplsql.org/home,现在集成到hive2.0了。使用方式:hplsql -f script.sql hplsql -e "sql" hplsql -e "PRINT a || ', ' || b" -d a=Hello -d b=worl
原创
发布博客 2016.08.28 ·
8342 阅读 ·
0 点赞 ·
0 评论
加载更多