strongyoung88
码龄11年
求更新 关注
提问 私信
  • 博客:536,927
    社区:849
    537,776
    总访问量
  • 77
    原创
  • 101
    粉丝
  • 7
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:新加坡
加入CSDN时间: 2014-05-23

个人简介:记录学习点滴,勇攀技术高峰! GitBook地址 /<a href="https://www.gitbook.com/@strongyoung">Qiang Yang/</a>

博客简介:

strongyoung的专栏

查看详细资料
个人成就
  • 获得127次点赞
  • 内容获得74次评论
  • 获得398次收藏
  • 代码片获得346次分享
  • 博客总排名1,161,241名
创作历程
  • 2篇
    2020年
  • 4篇
    2019年
  • 5篇
    2018年
  • 9篇
    2017年
  • 30篇
    2016年
  • 31篇
    2015年
  • 7篇
    2014年
成就勋章
TA的专栏
  • JVM
  • HiveQL解析内幕
  • 优化
    1篇
  • Kylin
    1篇
  • Java
    36篇
  • Linux
    18篇
  • LeetCode
  • Hadoop
    26篇
  • 剑指Offer
    8篇
  • Python
  • Recommendation System
    6篇
  • Machine Learning
  • HiveSQL
    2篇
  • Data Mining
  • C
    1篇
  • note
  • MySql
    3篇
  • Spark
    9篇
  • HBase
    1篇
  • Scala
    7篇
  • Restful
  • Jersey
    1篇
  • shell
    4篇
  • sbt
    3篇
  • Hive
    9篇
  • flume
    3篇
  • hdfs
    6篇
  • ssh
    3篇
  • ambari
    1篇
  • hdp
    1篇
  • git
    1篇
  • github
    1篇
  • avro
    3篇
  • json
    1篇
  • yarn
    2篇
  • maven
    1篇
  • JVM
    1篇
  • Kafka
    1篇

TA关注的专栏 0

TA关注的收藏夹 0

TA关注的社区 3

TA参与的活动 0

兴趣领域 设置
  • 大数据
    hadoophivespark
创作活动更多

新星杯·14天创作挑战营·第13期

这是一个以写作博客为目的的创作活动,旨在鼓励大学生博主们挖掘自己的创作潜能,展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴,那么,快来参加吧!我们一起发掘写作的魅力,书写出属于我们的故事。我们诚挚邀请你们参加为期14天的创作挑战赛!注: 1、参赛者可以进入活动群进行交流、互相鼓励与支持(开卷),虚竹哥会分享创作心得和涨粉心得,答疑及活动群请见:https://bbs.csdn.net/topics/619781944 【进活动群,得奖概率会更大,因为有辅导】 2、文章质量分查询:https://www.csdn.net/qc

90人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 代码仓
  • 资源
  • 收藏
  • 关注/订阅/互动
更多
  • 最近

  • 文章

  • 专栏

  • 代码仓

  • 资源

  • 收藏

  • 关注/订阅/互动

  • 社区

  • 帖子

  • 问答

  • 课程

  • 视频

搜索 取消

剑指Offer--二叉树的下一个节点

给定一个二叉树和其中的一个结点,请找出中序遍历顺序的下一个结点并且返回。注意,树中的结点不仅包含左右子结点,同时包含指向父结点的指针。
原创
博文更新于 2015.11.08 ·
1204 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hadoop学习之HDFS文件读取

文件内容读取的代码可以分为三个大步骤。 1、获取文件系统 2、通过文件系统打开文件 3、将文件内容输出
原创
博文更新于 2015.05.09 ·
12562 阅读 ·
1 点赞 ·
0 评论 ·
9 收藏

Hive的设计与架构

本文包含Hive的设计与架构的详细信息,具体内容如下:Hive架构Hive数据模型元数据 Motivation元数据对象元数据架构元数据接口Hive查询语言(HIveQL)编译器优化器Hive APIsHive 架构图中展示了Hive的主要组成部分,以及与Hadoop的交互,如图所述,Hive的主要组件有:UI – 提供给用户的接口,用于对系统提交查询...
翻译
博文更新于 2019.12.14 ·
654 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

笔试题引发的思考--装箱与拆箱

装箱,拆箱
原创
博文更新于 2015.10.10 ·
621 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

httpclient-4.5.jar

发布资源 2015.07.28 ·
jar

Hive和Spark SQL优化

优化步骤问题定位,通过日志和代码分析,定位任务耗时长的原因hive任务,对于hive任务,可以通过日志查看哪个application、以及是哪个阶段耗时较长,另外,可以通过stage编号,结合explain查看执行计划,可以得知耗时较长的application对应的是sql中的哪个操作,便于具体分析原因。如果是map阶段较长,很可能是并发不够,如果是reduce较长,且长时间留停在99...
原创
博文更新于 2020.05.07 ·
1528 阅读 ·
0 点赞 ·
0 评论 ·
6 收藏

Hive数据倾斜解决思路

Hive数据倾斜总结发生倾斜的根本原因在于,shuffle之后,key的分布不均匀,使得大量的key集中在某个reduce节点,导致此节点过于“忙碌”,在其他节点都处理完之后,任务的结整需要等待此节点处理完,使得整个任务被此节点堵塞,要解决此问题,主要可以分为两大块:一是尽量不shuffle;二是shuffle之后,在reduce节点上的key分布尽量均匀。倾斜探查join key倾斜se...
原创
博文更新于 2020.05.05 ·
2349 阅读 ·
2 点赞 ·
0 评论 ·
9 收藏

Hive中Map任务和Reduce任务数量计算原理

Hive中Map任务和Reduce任务数计算原理MapReduce原理Map阶段(以FileInputFormat为例)步骤:map, partition, sort, combinerInputFormat负责计算分片,一个分片对应一个Map任务,InputFormat而且还负责创建RecordReader,通过RecordReader的next()方法,然后循环调用map()方法...
原创
博文更新于 2020.04.30 ·
3495 阅读 ·
0 点赞 ·
0 评论 ·
7 收藏

httpcore-4.4.1.jar

发布资源 2015.07.28 ·
jar

Hive中的Predicate Pushdown Rules(谓词下推规则)

谓词下推概念谓词下推 Predicate Pushdown(PPD):简而言之,就是在不影响结果的情况下,尽量将过滤条件提前执行。谓词下推后,过滤条件在map端执行,减少了map端的输出,降低了数据在集群上传输的量,节约了集群的资源,也提升了任务的性能。PPD 配置PPD控制参数:hive.optimize.ppd Default Value: true Added ...
原创
博文更新于 2019.10.09 ·
12907 阅读 ·
20 点赞 ·
4 评论 ·
70 收藏

mac环境下kylin安装异常

find: -printf: unknown primary or operator Current HIVE_LIB is not valid, please export HIVE_LIB=‘YOUR_LOCAL_HIVE_LIB’find: -printf: unknown primary or operatorCurrent HIVE_LIB is not valid, please ...
原创
博文更新于 2019.09.29 ·
670 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Mac系统搭建Hive源码远程调试环境

环境准备JDK这个一定需要,不管是Hadoop,还是Hive的运行,都依赖这个。HadoopHadoop的安装比较简单,从官网下载一个包,解压,然后配置几个核心的xml就可以了。Hive源码从官网下载一个Hive的源码包,我下载的是3.1.1Intellij IDEA建议下载community版Maven编译Hive源码时需要启动Hadoop切换到Hadoop的安装目录...
原创
博文更新于 2019.03.03 ·
982 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Hadoop YARN

概述Map输入key/value对,输出key/value对中间结果。Map是独立的任务,它将输入记录转换成中间记录,转换的中间记录与输入记录不需要保持相同的类型。对于一个输入key/value对,可能产出0个或多个输出key/value对。The Hadoop Map-Reduce framework spawns one map task for each InputSplit gene...
原创
博文更新于 2018.09.20 ·
700 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Kafka快速入门

本文翻译自Kafka官网的Quickstart,主要面向没有使用过kafka、但想快速入门的同学。Kafka 快速入门下载先下载kafka压缩包,并解压。 下载地址:https://kafka.apache.org/downloads 然后解压并切换目录:&gt; tar -xzf kafka_2.11-1.1.0.tgz&gt; cd kafka_2.11-1.1.0...
翻译
博文更新于 2018.05.04 ·
610 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hadoop源码学习-编译源码

编译源码非常简单,步骤如下:下载源代码安装依赖软件或库编译打包 下载源码官方下载并解压,过程略查看编译要求切换到解压后的hadoop源码根目录 此目录下有个BUILDING.txt文件,里面有对building的详细说明,以Linux为例,要求如下:Unix SystemJDK 1.7+Maven 3.0 or laterFindbugs ...
原创
博文更新于 2018.03.26 ·
4291 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

JVM选项配置

解释:-Xms: 初始堆大小-Xmx: 最大堆大小-Xmn: 年轻代大小-XX:+PrintGCDetails 打印gc日志详情-XX:SurvivorRatio=8 eden与survivor的比例,当为8的时候,eden占年轻代的80%,survivor区总的占20%,但survivor区要再分成两个survivor,所以,survivor大小为10%-XX:MinHeapFre...
原创
博文更新于 2018.03.05 ·
892 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark各种问题集锦[持续更新]

1、Initial job has not accepted any resources16/08/13 17:05:42 INFO TaskSchedulerImpl: Adding task set 0.0 with 2 tasks16/08/13 17:05:57 WARN TaskSchedulerImpl: Initial job has not accepted any re
原创
博文更新于 2018.01.10 ·
15018 阅读 ·
3 点赞 ·
0 评论 ·
12 收藏

Hive 异常情况

FAILED: Execution Error, return code -101 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask. GC overhead limit exxceeded2018-01-08 21:35:44 End of local task; Time Taken: 1.155 sec.Execution co
原创
博文更新于 2018.01.10 ·
1685 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

java.lang.StackOverflowError 异常处理

今天在使用maven打包项目的时候,报了以下异常:[ERROR] error: java.lang.StackOverflowError,修改JVM参数最大栈可以解决
原创
博文更新于 2017.06.24 ·
14893 阅读 ·
3 点赞 ·
0 评论 ·
3 收藏

Apache Hadoop YARN Architecture

Apache Hadoop YARN ArchitectureYARN的基本理念是要将资源管理器和作业调度/监控分离成独立的守护进程。这个理念就是说,要有一个全局的ResourceManager(RM)和每个应用有一个ApplicationMaster (AM),一个应用可以是一个单一的作业,也可以是作业中的一个有向无环图(DAG)。ResourceManager和NodeManager
原创
博文更新于 2017.04.15 ·
594 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏
加载更多