自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

转载 详解原码、反码、补码——深入理解补码

转自: https://blog.csdn.net/hqshaozhu/article/details/48788769 学过计算机原理的人都知道原码、反码、补码,但是有多少人知道为什么会有这三种码呢,这三种码又是用来干嘛的呢。  众所周知,在计算机的世界只有01,那么显然所有的数都得转成二进制,这样计算机才能够理解。如何将一个十进制的数转成二进制就不说了,说下原码,正数的原码就是十进制...

2018-08-29 09:59:30 766

转载 Hive中Join的原理和机制

 转自:http://lxw1234.com/archives/2015/06/313.htm笼统的说,Hive中的Join可分为Common Join(Reduce阶段完成join)和Map Join(Map阶段完成join)。本文简单介绍一下两种join的原理和机制。Hive Common Join如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将J...

2018-08-16 00:40:09 873

转载 Spark Shuffle原理、Shuffle操作问题解决和参数调优

1 shuffle原理  1.1 mapreduce的shuffle原理    1.1.1 map task端操作    1.1.2 reduce task端操作   1.2 spark现在的SortShuffleManager    2 Shuffle操作问题解决   2.1 数据倾斜原理       2.2 数据倾斜问题发现与解决       2.3 数据倾斜解...

2018-07-24 21:49:58 2433

转载 Hive的性能优化

本文完全转自哥不是小萝莉的文章,特此声明,表示感谢!http://www.cnblogs.com/smartloli/1.概述  继续《那些年使用Hive踩过的坑》一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。2.介绍  首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜...

2018-07-11 10:10:43 306

转载 操作系统原理总结

转载:https://blog.csdn.net/yanglingwell/article/details/53745758 操作系统原理总结made by @杨领well (yanglingwell@sina.com)一、基础知识点1. 操作系统的资源管理技术资源管理解决物理资源数量不足和合理分配资源这两个问题。 操作系统虚拟机为用户提供了一种简单、清晰、易用、高效的计算机模型。虚拟机的每种资源...

2018-07-10 23:15:47 47934 1

原创 Hive的性能优化

hive的优化-》大表拆分成小表 -》包含临时表、分区表、外部表-》sql语句: -》优化sql:复杂的sql-》子查询+join -》简化,拆分成多个简单的语句 join、filter:先过滤再join-》设置map和reduce的个数  reduce数目:可以参数进行设置  -》hive: set mapreduce.job.reduces=<number>  -》MR:job.s...

2018-07-10 23:08:46 126

原创 Hive 的综合案例

补充:hive自带的时间函数Unixtime(时间分为两类)将时间转换为时间戳,方便用来求两个时间点的时间间隔;-》常见:2015-08-31 00:04:37-》Unix timestamp,以格林威治时间为基准-》hive自带函数:unix_timestamp,from_unixtime-》场景:(2015-08-31 00:04:37和2015-09-28 11:04:37时间差)-》查看两...

2018-07-10 21:46:11 1307

原创 hive的正则表达式

某公司服务器日志的一行数据如下:一共11个字段"27.38.5.159" "-" "31/Aug/2015:00:04:37 +0800" "GET /course/view.php?id=27 HTTP/1.1" "303" "440" - "http://www.ibeifeng.com/user.php?act=mycourse" "Mozilla/5.

2018-07-10 16:08:48 2043

原创 Hive案例---日志数据文件分析

-》需求:统计24小时内的每个时段的pv和uv -》pv统计总的浏览量 -》uv统计guid去重后的总量    -》获取时间字段,日期和小时  -》分区表-》数据清洗:获取日期和小时,获取想要字段 -》2015-08-28 18:14:59    -》28和18  substring方式获取 -》数据分析 -》hive :select sql-》数据导出: -》sqoop:导出mysql-》最终结...

2018-07-10 14:03:10 1650

原创 Hive总结(三)-------sqoop框架的使用

一:sqoop的部署-》 主要数据的来源:  RDMBS关系型数据库   -》sqoop  日志文件            -》flume官网: http://sqoop.apache.org/http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.5-cdh5.3.6/1、sqoop分为sqoop和sqoop22、sqoop2拆分server和clien...

2018-07-10 11:45:55 404

原创 Hive总结(二)

一、hive表的创建方式1.【普通的创建】create table stu_info(num int,name string)row format delimited fields terminated by "\t";加载数据到本地:将本地的数据复制到表对应的位置load data local inpath '/opt/datas/stu_info' into table stu_info;加载...

2018-07-10 01:23:35 1681 1

原创 Hive总结(一)

一、hive概述:  由Facebook开源用于解决海量结构化日志的数据统计,后称为Apache Hive为一个开源项目      结构化数据:数据类型,字段,value---》hive     非结构化数据:比如文本、图片、音频、视频---》会有非关系型数据库存储,或者转换为结构化  结构化日志数据:服务器生成的日志数据,会以空格或者指表符分割的数据,比如:apache、nginx等等  Hiv...

2018-07-09 23:46:28 396

转载 Hadoop中的二次排序实现,自定义分区,以及自定义分组

理论部分摘自博客园,感谢博主的总结!https://www.cnblogs.com/codeOfLife/p/5568786.html默认情况下,Map输出的结果会对Key进行默认的排序,但是有时候需要对Key排序的同时还需要对Value进行排序,这时候就要用到二次排序了。下面我们来说说二次排序1、二次排序原理  我们把二次排序分为以下几个阶段  Map起始阶段    在Map阶段,使用job.s...

2018-07-07 17:55:37 312

原创 MapReduce处理PV问题

package com.ibeifeng.hadoop19_copy;import java.io.IOException;import java.util.StringTokenizer;import org.apache.commons.lang.StringUtils;import org.apache.hadoop.conf.Configuration;import org.apache....

2018-07-07 01:34:49 228

原创 MapReduce -----WordCount演示

package com.ibeifeng.hadoop19_copy;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hado...

2018-07-07 00:07:14 112

原创 Kafka Producer API

//定义数据源的产生方式:首先定义一个长度为24的字符数组。创建三个线程,每个线程通过随机函数指定发生多少条keyMessage,keyedMessage包含key,value,topicName三个参数。value由不定数量的单词组成,每个单词的长度通过随机函数决定,单词的每个字符通过随机函数确定下标从字符数组中取得。//实现过程分为三步:第一步:构建Producer对象(创建Propertie...

2018-04-29 20:29:12 89

原创 Kafka Consumer的java语言实现

//实现思路:第一步,创建连接参数Properties,创建consumer上下文对象ConsumerConfig,通过Consumer类的createJavaConsumerConnector方法创建connector接口;//第二步:通过connector的createMessageStreams方法创建信息流,并通过get方法得到信息流集合,集合中 流的数量跟线程数相等。遍历集合取出想要的数...

2018-04-28 11:32:23 1807

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除