大数据
文章平均质量分 65
RangeYan2012
欢迎大家与我交流技术问题!我的QQ:332478640
展开
-
hive中Sort By,Order By,Cluster By,Distribute By,Group By的区别
order by:hive中的order by 和传统sql中的order by 一样,对数据做全局排序,加上排序,会新启动一个job进行排序,会把所有数据放到同一个reduce中进行处理,不管数据多少,不管文件多少,都启用一个reduce进行处理。如果指定了hive.mapred.mode=strict(默认值是nonstrict),这时就必须指定limit来限制输出条数,原因是:所有的数据都会在同一个reducer端进行,数据量大的情况下可能不能出结果,那么在这样的严格模式下,必须指定输出的条数。s原创 2020-08-23 17:17:18 · 881 阅读 · 0 评论 -
hive常用函数
1、数据介绍首先我们产生我们的数据,使用spark sql来产生吧:val data = Seq[(String,String)]( ("{\"userid\":\"1\",\"action\":\"0#222\"}","20180131"), ("{\"userid\":\"1\",\"action\":\"1#223\"}","20180131"), ("{\"userid\":\"1...原创 2019-07-22 20:52:12 · 1080 阅读 · 0 评论 -
hive常用语法
目录一、关系运算:1.等值比较: =2.不等值比较: <>3.小于比较: <4.小于等于比较: <=5.大于比较: >6.大于等于比较: >=7.空值判断: IS NULL8.非空判断: IS NOTNULL9. LIKE比较: LIKE10. JAVA的LIKE操作: RLIKE11. REGEX...原创 2019-07-18 20:33:32 · 687 阅读 · 0 评论 -
Redis 单机性能测试
由于生产环境下业务服务器总响应延迟需要控制在100ms内,为了尽量减少日志输出环节的耗时,考虑将日志吐到redis中缓存,由其他程序异步的从redis中取数据。在生产环境改造日志数据系统之前,对单机的redis读写性能做了测试。1. 测试环境和测试工具CPU:8核内存:8GRedis版本:3.2.6测试工具:redis官方基准测试工具 redis-benchmark原创 2016-12-20 12:33:06 · 16066 阅读 · 1 评论 -
kafka运维--增加topic备份因子
上篇文章将了怎样优化kafka配置,其中提到了kafka集群topic的默认备份因子参数default.replication.factor。如果想针对某一个或者多个topic,增加备份因子参照下面步骤进行。1. 创建一个需要增加备份因子的topic列表的文件,文件格式是json格式的(跟【kafka运维--集群扩容后手动Rebalance topic】文章中rebalan原创 2016-12-20 12:09:31 · 4791 阅读 · 1 评论 -
flume开发--自定义Sink
kafka可以通过自定义Sink的方式实现数据搜集并写入各种LOTP数据库,下面的例子是通过自定义Source实现数据写入分布式K-V数据库Aerospike.1. 自定义Sink代码如下package kafka_sink.asd;import java.io.IOException;import java.net.ConnectException;import java.uti原创 2016-11-29 12:09:20 · 8210 阅读 · 2 评论 -
pyspark 读写lzo 文件例子
pyspark 读写lzo 文件例子from pyspark import SparkContextfrom pyspark import SparkConfconf = SparkConf().setAppName("ta_yanshu")sc = SparkContext(conf=conf)filerdd = sc.newAPIHadoopFile("s3n://2原创 2016-07-08 19:50:21 · 5035 阅读 · 1 评论 -
kafka运维--集群扩容后手动Rebalance topic
kafka运维--集群扩容后手动Rebalance topic原创 2016-11-18 17:22:56 · 5378 阅读 · 0 评论 -
基于Flume的美团日志收集系统(二)改进和优化
问题导读:1.Flume的存在些什么问题?2.基于开源的Flume美团增加了哪些功能?3.Flume系统如何调优?在《基于Flume的美团日志收集系统(一)架构和设计》中,我们详述了基于Flume的美团日志收集系统的架构设计,以及为什么做这样的设计。在本节中,我们将会讲述在实际部署和使用过程中遇到的问题,对Flume的功能改进和对系统做的优化。1 Flu转载 2016-02-17 10:59:11 · 337 阅读 · 0 评论 -
基于Flume的美团日志收集系统(一)架构和设计
问题导读:1.Flume-NG与Scribe对比,Flume-NG的优势在什么地方?2.架构设计考虑需要考虑什么问题?3.Agent死机该如何解决?4.Collector死机是否会有影响?5.Flume-NG可靠性(reliability)方面做了哪些措施?美团的日志收集系统负责美团的所有业务日志的收集,并分别给Hadoop平台提供离线数据和Storm平台提供实时数转载 2016-02-17 10:56:46 · 373 阅读 · 0 评论 -
kafka入门教程
问题导读1.Kafka独特设计在什么地方?2.Kafka如何搭建及创建topic、发送消息、消费消息?3.如何书写Kafka程序?4.数据传输的事务定义有哪三种?5.Kafka判断一个节点是否活着有哪两个条件?6.producer是否直接将数据发送到broker的leader(主节点)?7.Kafa consumer是否可以消费指定分区消息?8.Kafka消息是转载 2015-12-24 17:46:12 · 1432 阅读 · 0 评论 -
大数据性能调优之HBase的RowKey设计
1 概述HBase是一个分布式的、面向列的数据库,它和一般关系型数据库的最大区别是:HBase很适合于存储非结构化的数据,还有就是它基于列的而不是基于行的模式。既然HBase是采用KeyValue的列存储,那Rowkey就是KeyValue的Key了,表示唯一一行。Rowkey也是一段二进制码流,最大长度为64KB,内容可以由使用的用户自定义。数据加载时,一般也是根据Rowke转载 2016-01-27 14:44:39 · 1181 阅读 · 0 评论 -
Hbase shell
一. 介绍 HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。 HBase以表转载 2016-01-27 14:55:13 · 539 阅读 · 0 评论 -
Hive JOIN使用详解
Hive是基于Hadoop平台的,它提供了类似SQL一样的查询语言HQL。有了Hive,如果使用过SQL语言,并且不理解Hadoop MapReduce运行原理,也就无法通过编程来实现MR,但是你仍然可以很容易地编写出特定查询分析的HQL语句,通过使用类似SQL的语法,将HQL查询语句提交Hive系统执行查询分析,最终Hive会帮你转换成底层Hadoop能够理解的MR Job。对于最基本的转载 2016-01-27 19:05:46 · 354 阅读 · 0 评论 -
hbase的thrift接口
一、概述Hbase是目前比较火的列存储数据库,由于Hbase是用Java写的,因此它原生地提供了Java接口,对非Java程序人员,怎么办呢?幸好它提供了thrift接口服务器,因此也可以采用其他语言来编写Hbase的客户端,本文即是Hbase C++接口的介绍。目前的Hbase(0.94.11,本文即基于此版本)有两套thrift接口(可以叫thrift1和thrift2),它们并不兼容转载 2016-01-25 16:10:57 · 1772 阅读 · 0 评论