heavylgf
码龄12年
关注
提问 私信
  • 博客:103,218
    103,218
    总访问量
  • 16
    原创
  • 1,256,117
    排名
  • 8
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2012-10-16
博客简介:

liuguangfudan的博客

查看详细资料
个人成就
  • 获得21次点赞
  • 内容获得8次评论
  • 获得62次收藏
创作历程
  • 1篇
    2021年
  • 1篇
    2018年
  • 3篇
    2017年
  • 12篇
    2016年
成就勋章
TA的专栏
  • 大数据kafaka
    3篇
  • hive基础部分
    1篇
  • hbase设计
    1篇
  • hbase性能
  • storm
    1篇
  • Java
  • 大数据spark
    5篇
  • scala
    2篇
  • ssh免密码登陆
  • hadoop
    1篇
  • flume
    2篇
  • hive
    2篇
  • 大数据
    1篇
  • CDH
    1篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

kafka动态增加topic副本

Kafka集群机器如下机器名ip地址broker.idcomputer910.113.176.13014computer1010.113.176.13112computer1110.113.176.13213computer1210.113.176.133430computer1310.113.176.134431computer1410.113.176.135432查看 topic 列表/opt/cloudera/par
原创
发布博客 2021.02.26 ·
673 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

CDH5.11.1 升级spark2.x

环境介绍:在我的CDH5.11.1的集群中,默认已经安装的spark是1.6版本,这里需要将其升级为spark2.1版本。经查阅官方文档,发现spark1.6和2.x是可以并行安装的,也就是说可以不用删除默认的1.6版本,可以直接安装2.x版本,它们各自用的端口也是不一样的。我尝试了安装spark2.0版本和spark2.1版本,均告成功。这里做一下安装spark2.1版本的步骤记录。...
原创
发布博客 2018.03.14 ·
915 阅读 ·
0 点赞 ·
2 评论 ·
0 收藏

Hive中union使用详情

hivehive union语法hive union all
原创
发布博客 2017.11.24 ·
70597 阅读 ·
14 点赞 ·
1 评论 ·
45 收藏

Flume部署及配置

Flume Agent介绍:          Flume Agent 连接: Flume 聚合: Flume 多路: Flume Load Balance 用户行为日志采集 Nginx 日志采集 首先一定要明确 flume一般企业搭建是两层:第一层是采集层、第一层是聚合层。 比如这样的架构。 具体,怎么部署呢? 第一种情况(flume只部署在一台机
原创
发布博客 2017.06.13 ·
2284 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

大数据,hadoop,spark,hive,ZooKeeper,kafka,flume等组件环境搭建

大数据环境搭建1、Virtual Box 4.1 2、CentOS 6.5 3、JDK 1.7 4、SecureCRT(自己下载) 5、WinSCP(自己下载) 6、Hadoop 2.4.1 7、Hive 0.13 8、ZooKeeper 3.4.5 9、kafka_2.9.2-0.8.1 10、Spark 1.3.0 11、Spark 1.5 12、flume-ng-1.5.
原创
发布博客 2017.03.30 ·
6683 阅读 ·
0 点赞 ·
0 评论 ·
11 收藏

Hive操作表分区

创建分区表语句,使用关键字partition partitionsa、单分区建表语句:b、 双分区建表语句:添加分区 删除分区 数据加载进分区表 查看分区
原创
发布博客 2016.12.06 ·
643 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

SparkSQL内置函数

Spark SQL , Spark
原创
发布博客 2016.11.23 ·
10495 阅读 ·
0 点赞 ·
0 评论 ·
10 收藏

Flume+Kafka+Spark-Streaming的实时流式处理完整流程

基于Flume+Kafka+Spark-Streaming的实时流式处理完整流程1、环境准备,四台测试服务器spark集群三台,spark1,spark2,spark3kafka集群三台,spark1,spark2,spark3zookeeper集群三台,spark1,spark2,spark3日志接收服务器, spark1日志收集服务器,Redis (这台机器用来做redis开发的,现在用来做日志
原创
发布博客 2016.11.08 ·
2013 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

大数据配置集群ssh免密码登录

这里以三台机器为例。 1、首先在三台机器上配置对本机的ssh免密码登录 执行命令:ssh-keygen -t rsa 生成本机的公钥,过程中不断敲回车即可,ssh-keygen命令默认会将公钥放在/root/.ssh目录下将公钥复制为authorized_keys文件,此时使用ssh连接本机就不需要输入密码了 cd /root/.ssh cp id_rsa.pub authorized
原创
发布博客 2016.09.08 ·
1729 阅读 ·
3 点赞 ·
0 评论 ·
2 收藏

Windows下scala环境搭建

Windows 下scala 环境搭建
原创
发布博客 2016.08.20 ·
470 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

centos中spark1.3.1环境搭建

一、Java安装 1、安装包准备: 首先到官网下载jdk,http://www.oracle.com/technetwork/java/javase/downloads /jdk7-downloads-1880260.html,我下载jdk-7u79-linux-x64.tar.gz,下载到主目录 2、解压安装包 通过终端在/usr/local目录下新建java文件夹,命令行: sudo
原创
发布博客 2016.07.06 ·
426 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Java中Set,List,Map的区别

Set,List,Map的区别 java集合的主要分为三种类型:Set(集)List(列表)Map(映射)要深入理解集合首先要了解下我们熟悉的数组: 数组是大小固定的,并且同一个数组只能存放类型一样的数据(基本类型/引用类型),而JAVA集合可以存储和操作数目不固定的一组数据。 所有的JAVA集合都位于 java.util包中! JAVA集合只能存放引用类型的的数据,不能存放基本数据类型。
原创
发布博客 2016.06.30 ·
1286 阅读 ·
1 点赞 ·
5 评论 ·
1 收藏

使用storm实现实时大数据分析

简单和明了,Storm让大数据分析变得轻松加愉快。当今世界,公司的日常运营经常会生成TB级别的数据。数据来源囊括了互联网装置可以捕获的任何类型数据,网站、社交媒体、交易型商业数据以及其它商业环境中创建的数据。考虑到数据的生成量,实时处理成为了许多机构需要面对的首要挑战。我们经常用的一个非常有效的开源实时计算工具就是Storm —— Twitter开发,通常被比作“实时的Hadoop”。然而Storm
原创
发布博客 2016.06.21 ·
1126 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

HBase性能优化方法

本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。Auto Flash通过调用HTable.setAutoFlushTo(false)方法可以将HTable写客户端自动flush关闭,这样可以批量写入数据到HBase,而不是有一条put就执行一次更新,只有当put填满客户端写缓存的时候,才会向HBase服务端发起写请求。默认情况下auto flush是开启的。Write B
原创
发布博客 2016.06.21 ·
407 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HBase的RowKey设计原则

HBase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这个三个维度可以对HBase中的数据进行快速定位。HBase中rowkey可以唯一标识一行记录,在HBase查询的时候,有两种方式:1、通过get方式,指定rowkey获取唯一一条记录 2、通过scan方式,设置startRow和stopRow参
转载
发布博客 2016.06.20 ·
2187 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

hive基础部分

问题收集: Hive调试模式: 通过hive -hiveconf hive.root.logger=DEBUG,console 进入Hive,即调试模式,可以看到明细日志。 比如遇到如下卡住不动、或其他任何报错时,都可以这样排查:2、8032 是ResourceManager的端口,如何报错是之前添加过Yarn的残留造成http://www.tuicool.com/articles/BB3e
原创
发布博客 2016.06.19 ·
593 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

大数据Kafka

1、Kafka下载: wget https://archive.apache.org/dist/kafka/0.8.1/kafka_2.9.2-0.8.1.tgz 解压 tar zxvf kafka_2.9.2-0.8.1.tgz由于kafka使用scala编写,需要下载scala相关的库2、下载安装sbt: wget http://repo.scala-sbt.org/scalasbt/sb
原创
发布博客 2016.06.14 ·
691 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多