大数据
qcg_qcg
将记录转变为思考
展开
-
Hadoop查看文件个数&文件大小&文件夹大小
一、表中文件个数:hdfs dfs -du -h /user/hive/warehouse/ods.db/test_01 | wc -l二、 显示前5行(如果文件个数是200个会刷屏)hdfs dfs -du -h /user/hive/warehouse/ods.db/test_01 | sed -n 1,5p三、查看总文件夹大小hdfs dfs -du -h -s /user/warehouse/ods.db/test_01...原创 2022-04-09 23:56:21 · 8391 阅读 · 0 评论 -
大数据开发工程师&架构师技能图谱
原创 2020-12-04 11:14:30 · 589 阅读 · 0 评论 -
hadoop2.6.5安装报错:Error: Could not find or load main class org.apache.hadoop.hdfs.server.namenode.Name
centos6.5安装Hadoop2.6.5,在执行 hdfs namenode -format时报错如下:Error: Could not find or load main class org.apache.hadoop.hdfs.server.namenode.NameNode原因:找不到对应的类,也就是说找不到jar包。所以需要配置 HADOOP_COMMON_LIB_NATIVE_...原创 2020-03-03 00:19:35 · 2077 阅读 · 3 评论 -
HIVE-SQL求连续天数
需求:求用户连续登陆天数1.数据准备create table tmpdb.test_01 asselect '1001' as user_id, '2017-01-01' as login_dateunion allselect '1001' as user_id, '2017-01-02' as login_dateunion allselect '1001' as user_id...原创 2019-11-28 19:42:50 · 1784 阅读 · 2 评论 -
HIVE差集运算详解(转载)
首先来介绍一下差集的概念:上图A中蓝色区域为 集合A-集合B,叫做A与B的差集。比如说有这么两个表:hive> select * from A;OK1 21 32 12 33 1Time taken: 0.3 seconds, Fetched: 5 row(s)hive> select * from B;OK1 21 42 22 3Time ta...转载 2019-08-07 21:16:02 · 1656 阅读 · 0 评论 -
hive中显示字段值为NULL,impala中显示正确的值
今天遇到了一个问题,其实之前也遇到过类似的问题只是没有记录,导致这个问题我又花了两天去排查。问题:hive中显示字段值为NULL,impala中显示正确的值hive结果如下:impala结果如下:hdfs中的内容如下:最后发现问题还是两张表的字段类型有问题,真相在这里:前人挖的坑,后人只能跳咯!...原创 2019-07-20 10:23:46 · 3017 阅读 · 6 评论 -
HIVE修改列顺序中的坑
1.创建表,在d后增加e字段create table tmpdb.change_column_order_test as select 1 as a, 2 as b, 3 as c, 4 as d;alter table tmpdb.change_column_order_test add columns (e int);查看表内容如下:2.调整e字段顺序到d字段之后alt...原创 2019-07-12 10:05:28 · 4445 阅读 · 0 评论 -
storm消费kafka报错
1.报错信息:java.lang.RuntimeException: java.nio.channels.ClosedChannelException at storm.kafka.ZkCoordinator.refresh(ZkCoordinator.java:103) ~[storm-kafka-0.9.6.jar:0.9.6] at storm.kafka.ZkCoordinator....原创 2019-03-25 15:14:14 · 484 阅读 · 0 评论 -
启动spark报错failed to launch org.apache.spark.deploy.master.Master
今天遇到一个启动spark的错误,启动日志如下:[root@master spark-2.0.2]# ./sbin/start-all.sh starting org.apache.spark.deploy.master.Master, logging to /export/service/spark-2.0.2/logs/spark-root-org.apache.spark.deploy....原创 2018-12-04 09:56:20 · 4245 阅读 · 1 评论 -
Scala日志打印
基于scala-logging和logback的日志打印模板,其中logback是一个更高效/更优于log4j的日志打印框架,目前正逐渐替代log4j的位置,以下为实现日志打印的几个步骤:1. 添加依赖以maven为例:<dependency> <groupId>com.typesafe.scala-logging</groupId> <...转载 2018-11-28 17:30:44 · 6010 阅读 · 0 评论 -
Phoenix整合SpringMVC报错
1.错误如下:严重: Servlet [SpringMVCServlet] in web application [/galaxy-report-business] threw load() exceptionjava.lang.AbstractMethodError: javax.ws.rs.core.UriBuilder.uri(Ljava/lang/String;)Ljavax/ws/r...原创 2018-10-22 15:30:36 · 526 阅读 · 0 评论 -
Flink之WordCount
pom依赖&lt;dependencies&gt; &lt;dependency&gt; &lt;groupId&gt;junit&lt;/groupId&gt; &lt;artifactId&gt;junit&lt;/artifactId&gt; &原创 2018-10-19 09:43:59 · 137 阅读 · 0 评论 -
单机安装Hbase、Phoenix
Hbase安装http://www.bigdata234.com/2018/03/17/hbase单机版的安装/注意两点:1.启动hbase的时候注意要将我们外部的zk停掉2.将Phoenix中phoenix-4.8.2-HBase-1.2-server.jar、phoenix-core-4.8.2-HBae-1.2.jar拷贝到hbase的lib中Phoenix安装http://w...原创 2018-09-29 21:38:04 · 777 阅读 · 0 评论 -
spark与storm的对比(转载)
转载自:https://www.cnblogs.com/yaohaitao/p/5703288.html 对比点 storm Spark Streaming 实时计算模型 纯实时,来一条数据,处理一条数据 准实时,对一个时间段内的数据收集起来作为一个RDD在处理 实时计算延迟度 毫秒级 秒级 吞吐量 低 高 事务机制 ...转载 2018-08-29 09:46:37 · 321 阅读 · 0 评论 -
Centos6.7安装redis3.0.0
Redis的安装下载地址:https://pan.baidu.com/s/1SLRZV-ANKhJX0b7sPkQ3XA 前提环境得安装gcc,rpm -qa | grep gcc 查看gcc是否安装,如果没有安装执行指令yum -y install gcc,下面开始安装redis:1.使用shell工具将redis3.0.0传入centos6.7中 2.解压文件,tar -zxvf ...原创 2018-07-06 15:56:59 · 468 阅读 · 0 评论 -
MR程序性能优化
MR程序性能优化图片保存原创 2018-06-28 21:54:46 · 919 阅读 · 0 评论 -
连接zookeeper报错
09:48:41,517 INFO ZooKeeper:100 - Client environment:user.name=cheng09:48:41,517 INFO ZooKeeper:100 - Client environment:user.home=C:\Users\cheng09:48:41,518 INFO ZooKeeper:100 - Client environme...原创 2018-06-10 21:25:54 · 2539 阅读 · 0 评论 -
Docker简介及常用指令
Docker简介 在理解docker之前,先来理解一下容器这个概念。我们这里所说的容器就是装代码或者软件的工具。在docker未诞生之前同一套代码会经过开发、测试、运维部署这三套大的流程,这么做会有一个缺点:同样的代码在我这里运行没问题,怎么在你那里就有错了呢?这个原因可以归结为两者之间的运行环境不同。为了解决这个问题google公司使用go语言开发了docker。Docker组件D...原创 2018-06-12 11:49:11 · 902 阅读 · 0 评论 -
Apache Flume采集数据简单案例
概述 Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采 集、聚合和传输的系统。Flume 支持定制各类数据发送方,用于收集各类型数据;同时,Flume 提供对数据进行简单处理,并写到各种数据接受方(可定制)的能 力。一般的采集需求,通过对 flume 的简单配置即可实现。针对特殊场景也具备 良好的自定义扩展能力。因此,flume 可以适用于大部分的日常数...原创 2018-06-21 15:32:52 · 775 阅读 · 0 评论