竖琴手
码龄16年
关注
提问 私信
  • 博客:130,345
    问答:3,592
    133,937
    总访问量
  • 38
    原创
  • 1,113,248
    排名
  • 37
    粉丝
  • 0
    铁粉

个人简介:兴趣使然的程序员,我变秃了也变强了

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2009-05-13
博客简介:

Harper

博客描述:
LEVEL UP!
查看详细资料
个人成就
  • 获得29次点赞
  • 内容获得22次评论
  • 获得62次收藏
  • 代码片获得116次分享
创作历程
  • 2篇
    2021年
  • 2篇
    2018年
  • 6篇
    2017年
  • 2篇
    2016年
  • 27篇
    2015年
成就勋章
TA的专栏
  • hadoop
    12篇
  • 大数据
    6篇
兴趣领域 设置
  • 大数据
    hadoophivesparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Harper的大数据漫谈(2): 数据采集

Harper的大数据漫谈前言Harper的大数据漫谈历史文章数据采集埋点数据采集与业务处理数据采集系统的设计附录OLTP与OLAP前言这是漫谈系列的第二篇文章了, 这几天看了一些网上其他人写的关于大数据的文章, 感觉要不就是在分析大数据的产业和应用, 要不就是在具体的讲某种技术或者分析某个问题, 动辄就是大数据4v和Hadoop. 这些文章可能写的很好, 讲了很多概念, 我在当初入门的时候也看过一些, 但我个人认为对我的帮助比较有限. 因为这些文章要不就过于理论, 要不就过于具体. 因此我希望自己写的
原创
发布博客 2021.07.11 ·
349 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Harper的大数据漫谈(1):什么是大数据

Harper的大数据漫谈前言: 关于Harper的大数据漫谈概述: 什么是大数据前言: 关于Harper的大数据漫谈回顾一下, 自2013年毕业至今已经8年了, 其中前三年在中国联通做通信, 之后五年转战互联网公司从事大数据行业. 很喜欢这个方向, 也积累了一些心得. 最近在帮组内的实习生入门, 正好把自己的思考记录下来, 或许能帮助更多的人, 于是重新捡起了技术博客, 发挥自己意识流写作的特点, 利用工作之余的碎片时间想到哪写到哪, 哈哈????由于写的都是个人的理解, 所以难免有错误, 希望大家指
原创
发布博客 2021.07.02 ·
471 阅读 ·
2 点赞 ·
4 评论 ·
1 收藏

Hive 通过关闭CBO (Cost based Optimizer) 来优化特定的SQL执行

Hive 自0.14.0开始,加入了一项”Cost based Optimizer”来对HQL执行计划进行优化,这个功能通过”hive.cbo.enable”来开启。在Hive 1.1.0之后,这个feature是默认开启的,它可以自动优化HQL中多个JOIN的顺序,并选择合适的JOIN算法 Join reordering and join algorithm selection are
原创
发布博客 2018.01.06 ·
12479 阅读 ·
5 点赞 ·
4 评论 ·
25 收藏

Hive中的 group by position与order by position

在写SQL的时候,如果group by的column 比较复杂,有的数据库中可以写成 group by position的形式,如:SELECT CASE WHEN a.f1=1 THEN 'a' WHEN a.f1=2 THEN 'b' ELSE c END AS col1, sum(a.f2) AS col2FROM aGROUP BY 1;Hive中可以通过设置...
原创
发布博客 2018.01.03 ·
2513 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

Protobuf与Avro的序列化性能测试

Avro与Protobuf性能对比
原创
发布博客 2017.08.23 ·
4048 阅读 ·
2 点赞 ·
0 评论 ·
2 收藏

通过数据库连接工具连接到Impala

以下以 Dbeaver 为例,其他数据库连接工具,如 Dbvisualizer 、 PlSQL 等也可以用类似的方法连接,只要新建 DriverManager 并将 Impala的JDBC Jar包加载进来就可以这个方法也可以应用于其他支持JDBC连接的数据库,如Hive等下载Impala JDBC Connector并解压其中需要用的Cloudera_ImpalaJDBCxx_x.x.x.x.z
原创
发布博客 2017.07.28 ·
11548 阅读 ·
1 点赞 ·
1 评论 ·
5 收藏

本机安装多个版本的protoc

以3.0.2和2.5.0为例,讲一下本机安装多个版本的protoc的方法
原创
发布博客 2017.06.28 ·
6053 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hadoop RPC流程

最近开始看Hadoop源码,本来想对照着《Hadoop技术内幕》看的,但是发现那本书对应的Hadoop版本太老了,还是基于1.x的,构建工具用的Ant,所以没有完全对照书看。目前Hadoop最新的stable版本为2.8.0-RC1,本文以及之后的Hadoop源码相关的博文都以这个版本为基础。另外写的可能会糙一些。
原创
发布博客 2017.06.28 ·
589 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

CentOS 7 修改默认字符集

运维帮忙新装了几台机器,默认的配置下登录的时候还有执行locale命令都会报错:locale: Cannot set LC_CTYPE to default locale: No such file or directorylocale: Cannot set LC_ALL to default locale: No such file or directory解决办法是修改文件/etc/loc
原创
发布博客 2017.06.21 ·
4552 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

Druid评测

Druid 评测最近组里申请了三台机器对Druid进行测试,这里记录一下过程,并对Druid的表现做一下评测环境三台机器 - 磁盘:SATA盘 4T - CPU:24核 - 内存:128G - 系统:Red Hat Enterprise Linux 7.3 - Zookeeper、HDFS、MySQL都用的已有的环境三台机器名称用 t214、t218、t219代替.
原创
发布博客 2017.05.26 ·
4458 阅读 ·
0 点赞 ·
3 评论 ·
0 收藏

java中怎样设置制表符的长度,即自定义制表符

答:

\t在java中只是一个字节而已,显示的长度不是java决定的吧,是你的显示环境决定的

回答问题 2017.02.09

String类的转换功能: byte[] getBytes()方法的调用问题

答:

是的,转换为字节数组了。
String转换为byte数组的过程,实际上就是对字符串进行编码转换的过程。getBytes()可以带参数的,比如"utf8"、"gbk"一类的,用来指定对字符串进行编码的时候使用的编码格式。不指定的话, 会使用操作系统默认的编码格式进行转换

回答问题 2017.02.09

HDFS高可用

以下: NN : NameNode SNN : SecondaryNameNode JN : JournalNode ZKFC : ZKFailoverController Hadoop 2.0之前,集群中只能有一个NN节点,这带来了两个问题: 1:单点故障(虽然可以用SNN来恢复,但是数据量大的情况下恢复过程缓慢) 2:集群维护、软件版本升级困难 Hadoop 2
原创
发布博客 2016.04.19 ·
652 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hadoop、Hive 参数说明

最近在用破机器跑mapreduce任务,部署的是社区版hadoop,参数都要手动调整。虽然hadoop已经火了很久了,但是网上关于参数的介绍基本都处于’语焉不详’的状态,大部分还都是无责任转载,哪个版本都有。这个帖子记录一下最近调参数对mapreduce任务的影响,结合hadoop官方文档,尽量对涉及到的参数有比较正确详细的解释。 这篇文章随着研究的深入些,随时更新Hadoop参数hadoop-e
原创
发布博客 2016.04.07 ·
1850 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Ubuntu apt-get 版本依赖的问题

mark一下 aptitude这个包可以自动解决要安装的包所依赖的包版本过高的问题,给出几个解决方案并自动完成
原创
发布博客 2015.11.18 ·
1170 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

redhat6.5 本地安装CDH 5.2

终于拿到了3台性能还不错的服务器,可以尝试搭建一下Cloudera的hadoop平台CDH了。在此mark一下,记录安装细节。Step.1 安装pdsh(可选) pdsh的作用是在多台机器上同时执行shell命令。步骤参考之前的blog: http://blog.csdn.net/strangerzz/article/details/49864089 这步不做也可以,不过有了pd
原创
发布博客 2015.11.18 ·
2026 阅读 ·
1 点赞 ·
2 评论 ·
0 收藏

mysql5.7.9安装与启动

准备装cloudera,起个mysql当作外置关系行数据库用,顺便学习下mysql的安装和使用。 1、安装 首先在oracle网站上下载了mysql的安装包,mysql-community-server依赖client、common等几个包,所以就直接下载了bundle版,由于之前自己建了个http的yum源,所以为了省事把下载的bundle包解压后用createrepo做了个yum源直接挂在了
原创
发布博客 2015.11.17 ·
3674 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

ssh免密码登录

ssh免密码登录。本来觉得很简单的一个小操作,其实里面还有些有意思的小工具以及配置方法,所以单列一章出来。1、生成密钥对 首先用ssh-keygen这个命令生成一个公开-私有密钥对:ssh-kengen -P "" -t rsa其中-P “”的意思是不用输入密码。这里不加这个参数,也可以随后根据提示进行设置。命令输入完之后,根据提示就可以创建秘钥文件对了,很简单。生成的结果是(比如我这里把文件名
原创
发布博客 2015.11.16 ·
554 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

pdsh的安装以及使用

由于最近开始玩集群,所以不能总用之前的土办法来管理集群了,了解了一下pdsh这个小工具。在这里把过程和问题mark一下,以后如果入到新的问题,就统一在这篇blog里面更新了。1:安装 首先去sourceforges上面下载了sourceforge的源码,我找到的版本是2.2.6,http://sourceforge.net/projects/pdsh/,解压后进入解压的目标目录,运行./c
原创
发布博客 2015.11.16 ·
8113 阅读 ·
1 点赞 ·
4 评论 ·
3 收藏

centos的yum自动补全功能

之前用ubuntu的时候,apt-get install 后面按tab可以把包名自动补全并给出可用的包的提示。新机器装了centos7标准版的也有这个功能,不过装了centos7 minimal的却没这个功能,yum install按tab后提示的是本地文件的列表。后来上网找了一下,原来这个是因为centos7 minimal没有安装bash-completion这个包导致的。安装一下:yum in
原创
发布博客 2015.10.30 ·
7824 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏
加载更多