2016年06月_djd已经存在

原创 hive什么时候会使用本地的mapreduce

如果在hive中运行的sql本身数据量很小，那么使用本地mr的效率要比分布式的快很多。//开启本地mrset hive.exec.mode.local.auto=true; //设置local mr的最大输入数据量,当输入数据量小于这个值的时候会采用local mr的方式set hive.exec.mode.local.auto.inputbytes.max=500

2016-06-30 19:26:41 2590

原创 hive优化策略之控制map数和reduce数

我们可以通过控制map和reduce的数量来平衡资源达到优化程序的目的。一、map数量map的数量与你输入的文件个数和大小有关，你可以通过set dfs.block.size;来查看集群设置的文件块大小，该参数不能自定义修改。hive> set dfs.block.size;dfs.block.size=134217728例如你输入一个文件fil

2016-06-30 19:08:15 3514

转载 Hive中的数据库(Database)和表(Table)

在前面的文章中，介绍了可以把Hive当成一个“数据库”，它也具备传统数据库的数据单元，数据库（Database/Schema）和表（Table）。本文介绍一下Hive中的数据库（Database/Schema）和表（Table）的基础知识，由于篇幅原因，这里只是一些常用的、基础的。二、Hive的数据库和表先看一张草图：Hive结构从图上可以看出，Hi

2016-06-30 11:13:33 1880

原创美团Spark性能优化指南——基础篇

前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速

2016-06-29 21:00:39 8415 1

原创 python自动发送报警监控邮件

因为有一些日常任务需要每日检查日否执行正确，所以需要一个报警监控的机制，这个需要你指定你发送的邮箱和你接收的邮箱，就可以使用了。这四个需要填写一下，我们使用的qq企业邮箱所以host为smtp.exmail.qq.commail_host=""mail_user=""mail_pass=""mail_postfix=""使用如下，也可以增加附件使用。pytho

2016-06-29 18:36:17 4932

原创 linux 统计目录下所有文件数量

查看统计当前目录下文件的个数，包括子目录里的。　　ls -lR| grep "^-" | wc -l[喝小酒的网摘]http://blog.hehehehehe.cn/a/12311.htmLinux下查看某个目录下的文件、或文件夹个数用到3个命令:ls列目录、用grep过虑、再用wc统计。举例说明：1、查看统计当前目录下文件的个数　　ls -l | grep "^

2016-06-29 12:16:46 1900

转载 Oozie组件简介

在Hadoop中执行的任务有时候需要把多个Map/Reduce作业连接到一起，这样才能够达到目的。[1]在Hadoop生态圈中，有一种相对比较新的组件叫做Oozie[2]，它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中，从而完成更大型的任务。本文中，我们会向你介绍Oozie以及使用它的一些方式。什么是Oozie？ Oozie是一种Java Web应用程序，它运

2016-06-23 11:11:45 1541

原创爬虫ip代理服务器的简要思路

爬虫有的时候会遇到被禁ip的情况，这个时候你可以找一下代理网站，抓取一下ip，来进行动态的轮询就没问题了，也可以用别人做好的第三方ip代理平台，比如说crawlera，crawlera是一个利用代理IP地址池来做分布式下载的第三方平台，除了scrapy可以用以外，普通的java、php、python等都可以通过curl的方式来调用，具体如何设置可以查看 crawlera使用指南如果

2016-06-23 10:45:19 18867

原创 python的md5和sha1加密

首先介绍一下MD5和SHA1 MD5 MD5的全称是Message-DigestAlgorithm 5（信息-摘要算法）。128位长度。目前MD5是一种不可逆算法。具有很高的安全性。它对应任何字符串都可以加密成一段唯一的固定长度的代码。 SHA1 SHA1的全称是Secure HashAlgorithm(安全哈希算法) 。SHA1基于MD5，加密后的数据长

2016-06-22 14:28:57 1628

转载 Linux压缩与解压缩

在Linux系统中，常常可以看到各种后缀名，如tar、gz、bz2、tgz等等，这些后缀名都是什么意思，应该用何种方式来进行解压，都是一个不小的挑战。对已常见的压缩格式，各位同学应该都能使用，本文只是作为备忘录，最近被这些后缀名搞得有点头大，每次解压或者压缩都要去搜下，不如自己做个总结记下来，以供自己和后来人使用。压缩功能有明显的好处，在*nux系统中，各种文件下载，网络传输都是使用压

2016-06-21 20:22:55 1094

原创使用get指令将文件从HDFS复制到本地

get使用方法：Hadoop fs -get [-ignorecrc] [-crc] 复制文件到本地文件系统。可用-ignorecrc选项复制CRC校验失败的文件。使用-crc选项复制文件以及CRC信息。示例：hadoop fs -get /user/hadoop/file localfilehadoop fs -gethdfs://host:port/user/hadoo

2016-06-21 20:15:06 21160

原创 Python获取命令行参数

如果想对Python脚本传参数，python中对应的argc, argv(C语言的命令行参数)是什么呢？需要模块：sys参数个数：len(sys.argv)脚本名： sys.argv[0]参数1： sys.argv[1]参数2： sys.argv[2]#test.pyimport sysprint "脚本名：",sys.argv[0]fo

2016-06-21 12:01:16 1186

原创 Linux的find、locate、whereis、which、type

1. findfind是最常见和最强大的查找命令，你可以用它找到任何你想找的文件。find的使用格式如下：　　$ find 　　- ：所要搜索的目录及其所有子目录。默认为当前目录。　　- ：所要搜索的文件的特征。　　- ：对搜索结果进行特定的处理。如果什么参数也不加，find默认搜索当前目录及其子目录，并且不过滤任何结果（也就是返回所有文件），将它们全都显示在屏幕上

2016-06-16 18:34:38 1006

原创 distcp指令并行拷贝大数据文件

您可以使用目标群集上的 distcp 工具启用复制作业以移动数据。在运行不同 CDH 版本的两个群集之间，运行 distcp 工具（hftp:// 作为源文件系统且 hdfs:// 作为目标文件系统）。它将 HFTP 协议用于源文件系统且 HDFS 协议用于目标文件系统。HFTP 的默认端口为 50070，HDFS 的默认端口为 8020。此外，还通过 s3:// 或 s3n:// 协议支持

2016-06-16 18:29:02 3521

原创 windows通过注册表修改快捷键

最根本的办法就是直接修改注册表，达到修改快捷键的目的。首先我们可以通过快捷键Ctrl+R来调出运行之后输入regedit调出注册表管理的窗口选中hkey_current_user -> control panel ->inpur method -> hot keys 将00000011和00000071的virtual修改为35 00 00 00之后关闭注册表管理程序，重启机器

2016-06-14 17:14:53 14225 3

原创在北京外地农村户口和城镇户口五险一金的区别？

单位交的都是五险一金。和户口没有关系。只有个人参加社保，才和户口有差别。城镇职工养老保险不允许一次性补缴凡是符合条件的城乡居民都可根据自身经济条件自由选择参加“新农保”或城镇职工养老保险。这两种社保在缴纳标准和享受待遇上有较大差别：“新农保”分五档缴费标准，以最高档1200元/年，缴满15年计，到60周岁每月可领取237元（按现行标准）。如到60周岁，未缴满

2016-06-14 11:29:03 8862

原创为什么我的hosts文件修改无效？

很多朋友可能碰到了这样的问题，用来屏蔽某些恶意网址的时候，修改了hosts 文件，但是却总是不生效。上网搜索了一下，Windows7系统和Vista系统、XP系统都碰到了此类情况，看来问题还很普遍。今天特别附上一则解决办法，未必通杀，但确实是解决了很多这种情况下的问题。解决这个问题之前，我们先来简略谈下hosts文件，很多新手朋友可能还不了解，软媒最早在Vista之家上面曾

2016-06-09 22:32:18 1645

原创 #!/usr/bin/env python与#!/usr/bin/python的区别

脚本语言的第一行，目的就是指出，你想要你的这个文件中的代码用什么可执行程序去运行它，就这么简单#!/usr/bin/Python是告诉操作系统执行这个脚本的时候，调用/usr/bin下的python解释器；#!/usr/bin/env python这种用法是为了防止操作系统用户没有将python装在默认的/usr/bin路径里。当系统看到这一行的时候，首先会到env设置里查找pytho

2016-06-08 21:09:11 1135

原创 Hive小文件合并

背景Hive query将运算好的数据写回hdfs（比如insertinto语句），有时候会产生大量的小文件，如果不采用CombineHiveInputFormat就对这些小文件进行操作的话会产生大量的map task，耗费大量集群资源，而且小文件过多会对namenode造成很大压力。所以Hive在正常job执行完之后，会起一个conditionaltask，来判断是否需要合并小文件，如果满足

2016-06-03 20:02:48 1337

原创 hive 设置参数列表

hive.exec.mode.local.auto 决定 Hive 是否应该自动地根据输入文件大小，在本地运行（在GateWay运行） truehive.exec.mode.local.auto.inputbytes.max 如果 hive.exec.mode.local.auto 为 true，当输入文件大小小于此阈值时可以自动在本地模式运行，默认是 128兆。 134217728

2016-06-03 19:55:48 1643

原创 hive的压缩设置

压缩配置： map/reduce 输出压缩（一般采用序列化文件存储）set hive.exec.compress.output=true;set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;set mapred.output.compression.type=BLOCK;

2016-06-03 19:51:59 11502 1

转载 Hive 基础

1、Hive 分区表在Hive Select查询中一般会扫描整个表内容，会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据，因此建表时引入了partition概念。分区表指的是在创建表时指定的partition的分区空间。Hive可以对数据按照某列或者某些列进行分区管理，所谓分区我们可以拿下面的例子进行解释。当前互联网应用每天都要存储大量的日志文件，几G、几十G甚至更大

2016-06-03 19:46:35 1893

原创 hive的三板斧：内部表和外部表、分区和分桶以及序列化/反序列化(SerDe)

Hive是Hadoop生态圈中实现数据仓库的一项技术。虽然Hadoop和HDFS的设计局限了Hive所能胜任的工作，但是Hive仍然是目前互联网中最适合数据仓库的应用技术。不论从“品相还是举止”，Hive都像一个关系型数据库。用户对数据库、表和列这类术语比较熟悉的话，那么掌握Hive的查询语言HQL也轻而易举。不过，Hive的实现和使用方式与传统的关系数据库相比，有很多不同的地方。我们H

2016-06-03 19:44:45 3790

原创 linux的exec和source命令区别

exec和source都属于bash内部命令（builtins commands），在bash下输入man exec或man source可以查看所有的内部命令信息。bash shell的命令分为两类：外部命令和内部命令。外部命令是通过系统调用或独立的程序实现的，如sed、awk等等。内部命令是由特殊的文件格式（.def）所实现，如cd、history、exec等等。在说明exe和

2016-06-03 19:30:52 1730

原创 hive优化记录----合并小文件压缩输出

Hive简要介绍Hive是基于Hadoop的数据仓库平台，由Facebook贡献，其支持类似SQL的结构化查询功能。Hive的组件总体上可以分为以下几个部分：用户接口（UI）、驱动、编译器、元数据（Hive系统参数数据）和执行引擎。1) 对外的接口UI包括以下几种：命令行CLI，Web界面、JDBC/ODBC接口；2) 驱动：接收用户提交的查询HQL；3) 编译器：解析查询语句

2016-06-03 19:16:39 15466 2

原创 linux的IO调度算法

Linux IO调度程序是块设备I/O子系统的主要组件，它介于通用块层和块设备驱动程序之间，如下图所示。当Linux内核组件要读写数据时，并非一有请求便立即执行，而是将请求放入请求(输入)队列，并推迟执行。为什么如此设计？原因在于Linux需要应对的最核心的块设备是磁盘。磁盘的寻道时间严重制约磁盘性能，若想提高磁盘IO性能必须想尽办法减少磁盘寻道次数。块设备I/O子系统最核心的任务

2016-06-02 21:58:04 1166

原创 Hive程序传递变量

图 1 外部向Hive程序中传递变量的方法使用Hive编写程序最常用的方法是将Hive语句写到文件中，然后使用hive -f filename.hql来批量执行查询语句。经常需要将外部参数传入到hql语句中替换其中的变量来动态执行任务，比如动态设定数据库名、表名、时间值、字段序列等变量，以达到脚本泛化执行的目的。1) 方法1：字符串、正则、模板引擎等暴力方式替换最简单也

2016-06-02 21:22:08 1977

原创 HDFS常用命令列表

一、appendToFile：将一个或多个目标文件append到hdfs文件中，目标文件可以为本地文件或者stdin。使用方式：hdfs dfs -appendToFile 1) ./hdfs dfs -appendToFile /data.txt /hdfs/data.txt 2) ./hdfs dfs -appendToFile /data.tx

2016-06-02 21:17:24 2793

原创 shell脚本输出1-1000内的偶数

我们可以通过for循环结合seq来进行使用。start=0;total=0;for i in $(seq $start 2 1000); do total=$(($total+$i));done;echo $total;seq的使用指南：seq [OPTION]... LASTseq [OPTION]... FIRST LASTseq [OPTION]..

2016-06-02 21:13:35 7002

原创 shell脚本的时间指令date

date -u：直接输出时间date -u +%Y%m%d20160602date -d：//时间天数加减昨天：date -d"-1 day" +%Y%m%d 20160601（1）年月天数相减：date -d"+3 year -3 month -5 day" +%Y-%m-%d2019-02-25（2）年月日格式2：date -d"+3 yea

2016-06-02 20:51:26 1407

原创 shell 实现N位自动补零和日期循环

用awk的printf就可以补位# 仅适用于数字 printf "%04d\n" 86 echo 86|awk '{printf("%04d\n",$0)}'下面是我实际应用中使用的一个脚本，目的是批量修改hdfs上的文件名，输入两个参数即可，就是开始时间和结束时间，然后用whil去循环。#example------nohup sh hdfs_ren

2016-06-02 20:47:46 15072

京东放养的爬虫