weixin_39953756-CSDN博客

转载详解原码、反码、补码——深入理解补码

转自： https://blog.csdn.net/hqshaozhu/article/details/48788769 学过计算机原理的人都知道原码、反码、补码，但是有多少人知道为什么会有这三种码呢，这三种码又是用来干嘛的呢。众所周知，在计算机的世界只有01，那么显然所有的数都得转成二进制，这样计算机才能够理解。如何将一个十进制的数转成二进制就不说了，说下原码，正数的原码就是十进制...

2018-08-29 09:59:30 794

转载 Hive中Join的原理和机制

转自:http://lxw1234.com/archives/2015/06/313.htm笼统的说，Hive中的Join可分为Common Join（Reduce阶段完成join）和Map Join（Map阶段完成join）。本文简单介绍一下两种join的原理和机制。Hive Common Join如果不指定MapJoin或者不符合MapJoin的条件，那么Hive解析器会将J...

2018-08-16 00:40:09 878

转载 Spark Shuffle原理、Shuffle操作问题解决和参数调优

1 shuffle原理　　1.1 mapreduce的shuffle原理　　　　1.1.1 map task端操作　　　　1.1.2 reduce task端操作　　 1.2 spark现在的SortShuffleManager 2 Shuffle操作问题解决　　 2.1 数据倾斜原理 2.2 数据倾斜问题发现与解决 2.3 数据倾斜解...

2018-07-24 21:49:58 2458

本文完全转自哥不是小萝莉的文章，特此声明，表示感谢！http://www.cnblogs.com/smartloli/1.概述　　继续《那些年使用Hive踩过的坑》一文中的剩余部分，本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。2.介绍　　首先，我们来看看Hadoop的计算框架特性，在此特性下会衍生哪些问题？数据量大不是问题，数据倾斜...

2018-07-11 10:10:43 314

转载操作系统原理总结

转载：https://blog.csdn.net/yanglingwell/article/details/53745758 操作系统原理总结made by @杨领well (yanglingwell@sina.com)一、基础知识点1. 操作系统的资源管理技术资源管理解决物理资源数量不足和合理分配资源这两个问题。操作系统虚拟机为用户提供了一种简单、清晰、易用、高效的计算机模型。虚拟机的每种资源...

2018-07-10 23:15:47 47994 1

原创 Hive的性能优化

hive的优化-》大表拆分成小表 -》包含临时表、分区表、外部表-》sql语句： -》优化sql：复杂的sql-》子查询+join -》简化，拆分成多个简单的语句 join、filter：先过滤再join-》设置map和reduce的个数 reduce数目：可以参数进行设置 -》hive： set mapreduce.job.reduces=<number> -》MR：job.s...

2018-07-10 23:08:46 131

原创 Hive 的综合案例

补充：hive自带的时间函数Unixtime(时间分为两类)将时间转换为时间戳，方便用来求两个时间点的时间间隔；-》常见：2015-08-31 00:04:37-》Unix timestamp，以格林威治时间为基准-》hive自带函数：unix_timestamp，from_unixtime-》场景：（2015-08-31 00:04:37和2015-09-28 11:04:37时间差）-》查看两...

2018-07-10 21:46:11 1329

原创 hive的正则表达式

某公司服务器日志的一行数据如下：一共11个字段"27.38.5.159" "-" "31/Aug/2015:00:04:37 +0800" "GET /course/view.php?id=27 HTTP/1.1" "303" "440" - "http://www.ibeifeng.com/user.php?act=mycourse" "Mozilla/5.

2018-07-10 16:08:48 2089

原创 Hive案例---日志数据文件分析

-》需求：统计24小时内的每个时段的pv和uv -》pv统计总的浏览量 -》uv统计guid去重后的总量 -》获取时间字段，日期和小时 -》分区表-》数据清洗：获取日期和小时，获取想要字段 -》2015-08-28 18:14:59 -》28和18 substring方式获取 -》数据分析 -》hive ：select sql-》数据导出： -》sqoop：导出mysql-》最终结...

2018-07-10 14:03:10 1664

原创 Hive总结（三）-------sqoop框架的使用

一：sqoop的部署-》主要数据的来源： RDMBS关系型数据库 -》sqoop 日志文件 -》flume官网： http://sqoop.apache.org/http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.5-cdh5.3.6/1、sqoop分为sqoop和sqoop22、sqoop2拆分server和clien...

2018-07-10 11:45:55 428

原创 Hive总结（二）

一、hive表的创建方式1.【普通的创建】create table stu_info(num int,name string)row format delimited fields terminated by "\t";加载数据到本地：将本地的数据复制到表对应的位置load data local inpath '/opt/datas/stu_info' into table stu_info;加载...

2018-07-10 01:23:35 1705 1

原创 Hive总结（一）

一、hive概述：由Facebook开源用于解决海量结构化日志的数据统计，后称为Apache Hive为一个开源项目结构化数据：数据类型，字段，value---》hive 非结构化数据：比如文本、图片、音频、视频---》会有非关系型数据库存储，或者转换为结构化结构化日志数据：服务器生成的日志数据,会以空格或者指表符分割的数据,比如：apache、nginx等等 Hiv...

2018-07-09 23:46:28 412

转载 Hadoop中的二次排序实现，自定义分区，以及自定义分组

理论部分摘自博客园，感谢博主的总结！https://www.cnblogs.com/codeOfLife/p/5568786.html默认情况下，Map输出的结果会对Key进行默认的排序，但是有时候需要对Key排序的同时还需要对Value进行排序，这时候就要用到二次排序了。下面我们来说说二次排序1、二次排序原理我们把二次排序分为以下几个阶段 Map起始阶段在Map阶段，使用job.s...

2018-07-07 17:55:37 320

原创 MapReduce处理PV问题

package com.ibeifeng.hadoop19_copy;import java.io.IOException;import java.util.StringTokenizer;import org.apache.commons.lang.StringUtils;import org.apache.hadoop.conf.Configuration;import org.apache....

2018-07-07 01:34:49 239

原创 MapReduce -----WordCount演示

package com.ibeifeng.hadoop19_copy;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hado...

2018-07-07 00:07:14 117

原创 Kafka Producer API

//定义数据源的产生方式：首先定义一个长度为24的字符数组。创建三个线程，每个线程通过随机函数指定发生多少条keyMessage，keyedMessage包含key,value,topicName三个参数。value由不定数量的单词组成，每个单词的长度通过随机函数决定，单词的每个字符通过随机函数确定下标从字符数组中取得。//实现过程分为三步：第一步：构建Producer对象（创建Propertie...

2018-04-29 20:29:12 96

原创 Kafka Consumer的java语言实现

//实现思路：第一步，创建连接参数Properties，创建consumer上下文对象ConsumerConfig，通过Consumer类的createJavaConsumerConnector方法创建connector接口；//第二步：通过connector的createMessageStreams方法创建信息流，并通过get方法得到信息流集合，集合中流的数量跟线程数相等。遍历集合取出想要的数...

2018-04-28 11:32:23 1826

weixin_39953756的博客