自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

京东放养的爬虫

努力成为一个优秀的人,我在北京要活的精彩。

  • 博客(31)
  • 资源 (2)
  • 问答 (2)
  • 收藏
  • 关注

原创 hive什么时候会使用本地的mapreduce

如果在hive中运行的sql本身数据量很小,那么使用本地mr的效率要比分布式的快很多。//开启本地mrset hive.exec.mode.local.auto=true; //设置local mr的最大输入数据量,当输入数据量小于这个值的时候会采用local mr的方式set hive.exec.mode.local.auto.inputbytes.max=500

2016-06-30 19:26:41 2590

原创 hive优化策略之控制map数和reduce数

我们可以通过控制map和reduce的数量来平衡资源达到优化程序的目的。一、map数量map的数量与你输入的文件个数和大小有关,你可以通过set dfs.block.size;来查看集群设置的文件块大小,该参数不能自定义修改。hive> set dfs.block.size;dfs.block.size=134217728例如你输入一个文件fil

2016-06-30 19:08:15 3514

转载 Hive中的数据库(Database)和表(Table)

在前面的文章中,介绍了可以把Hive当成一个“数据库”,它也具备传统数据库的数据单元,数据库(Database/Schema)和表(Table)。本文介绍一下Hive中的数据库(Database/Schema)和表(Table)的基础知识,由于篇幅原因,这里只是一些常用的、基础的。二、Hive的数据库和表先看一张草图:Hive结构从图上可以看出,Hi

2016-06-30 11:13:33 1880

原创 美团Spark性能优化指南——基础篇

前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速

2016-06-29 21:00:39 8415 1

原创 python自动发送报警监控邮件

因为有一些日常任务需要每日检查日否执行正确,所以需要一个报警监控的机制,这个需要你指定你发送的邮箱和你接收的邮箱,就可以使用了。这四个需要填写一下,我们使用的qq企业邮箱所以host为smtp.exmail.qq.commail_host=""mail_user=""mail_pass=""mail_postfix=""使用如下,也可以增加附件使用。pytho

2016-06-29 18:36:17 4932

原创 linux 统计目录下所有文件数量

查看统计当前目录下文件的个数,包括子目录里的。  ls -lR| grep "^-" | wc -l[喝小酒的网摘]http://blog.hehehehehe.cn/a/12311.htmLinux下查看某个目录下的文件、或文件夹个数用到3个命令:ls列目录、用grep过虑、再用wc统计。举例说明:1、查看统计当前目录下文件的个数  ls -l | grep "^

2016-06-29 12:16:46 1900

转载 Oozie组件简介

在Hadoop中执行的任务有时候需要把多个Map/Reduce作业连接到一起,这样才能够达到目的。[1]在Hadoop生态圈中,有一种相对比较新的组件叫做Oozie[2],它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中,从而完成更大型的任务。本文中,我们会向你介绍Oozie以及使用它的一些方式。 什么是Oozie? Oozie是一种Java Web应用程序,它运

2016-06-23 11:11:45 1541

原创 爬虫ip代理服务器的简要思路

爬虫有的时候会遇到被禁ip的情况,这个时候你可以找一下代理网站,抓取一下ip,来进行动态的轮询就没问题了,也可以用别人做好的第三方ip代理平台,比如说crawlera,crawlera是一个利用代理IP地址池来做分布式下载的第三方平台,除了scrapy可以用以外,普通的java、php、python等都可以通过curl的方式来调用,具体如何设置可以查看 crawlera使用指南如果

2016-06-23 10:45:19 18867

原创 python的md5和sha1加密

首先介绍一下MD5和SHA1 MD5 MD5的全称是Message-DigestAlgorithm 5(信息-摘要算法)。128位长度。目前MD5是一种不可逆算法。 具有很高的安全性。它对应任何字符串都可以加密成一段唯一的固定长度的代码。 SHA1 SHA1的全称是Secure HashAlgorithm(安全哈希算法) 。SHA1基于MD5,加密后的数据长

2016-06-22 14:28:57 1628

转载 Linux压缩与解压缩

在Linux系统中,常常可以看到各种后缀名,如tar、gz、bz2、tgz等等,这些后缀名都是什么意思,应该用何种方式来进行解压,都是一个不小的挑战。对已常见的压缩格式,各位同学应该都能使用,本文只是作为备忘录,最近被这些后缀名搞得有点头大,每次解压或者压缩都要去搜下,不如自己做个总结记下来,以供自己和后来人使用。压缩功能有明显的好处,在*nux系统中,各种文件下载,网络传输都是使用压

2016-06-21 20:22:55 1094

原创 使用get指令将文件从HDFS复制到本地

get使用方法:Hadoop fs -get [-ignorecrc] [-crc] 复制文件到本地文件系统。可用-ignorecrc选项复制CRC校验失败的文件。使用-crc选项复制文件以及CRC信息。示例:hadoop fs -get /user/hadoop/file localfilehadoop fs -gethdfs://host:port/user/hadoo

2016-06-21 20:15:06 21160

原创 Python获取命令行参数

如果想对Python脚本传参数,python中对应的argc, argv(C语言的命令行参数)是什么呢?需要模块:sys参数个数:len(sys.argv)脚本名:    sys.argv[0]参数1:     sys.argv[1]参数2:     sys.argv[2]#test.pyimport sysprint "脚本名:",sys.argv[0]fo

2016-06-21 12:01:16 1186

原创 Linux的find、locate、whereis、which、type

1. findfind是最常见和最强大的查找命令,你可以用它找到任何你想找的文件。find的使用格式如下:  $ find   - :所要搜索的目录及其所有子目录。默认为当前目录。  - :所要搜索的文件的特征。  - :对搜索结果进行特定的处理。如果什么参数也不加,find默认搜索当前目录及其子目录,并且不过滤任何结果(也就是返回所有文件),将它们全都显示在屏幕上

2016-06-16 18:34:38 1006

原创 distcp指令并行拷贝大数据文件

您可以使用目标群集上的 distcp 工具启用复制作业以移动数据。在运行不同 CDH 版本的两个群集之间,运行 distcp 工具(hftp:// 作为源文件系统且 hdfs:// 作为目标文件系统)。它将 HFTP 协议用于源文件系统且 HDFS 协议用于目标文件系统。HFTP 的默认端口为 50070,HDFS 的默认端口为 8020。此外,还通过 s3:// 或 s3n:// 协议支持

2016-06-16 18:29:02 3521

原创 windows通过注册表修改快捷键

最根本的办法就是直接修改注册表,达到修改快捷键的目的。首先我们可以通过快捷键Ctrl+R来调出运行之后输入regedit调出注册表管理的窗口选中hkey_current_user -> control panel ->inpur method -> hot keys 将00000011和00000071的virtual修改为35 00 00 00之后关闭注册表管理程序,重启机器

2016-06-14 17:14:53 14225 3

原创 在北京外地农村户口和城镇户口五险一金的区别?

单位交的都是五险一金。和户口没有关系。只有个人参加社保,才和户口有差别。城镇职工养老保险不允许一次性补缴    凡是符合条件的城乡居民都可根据自身经济条件自由选择参加“新农保”或城镇职工养老保险。这两种社保在缴纳标准和享受待遇上有较大差别:“新农保”分五档缴费标准,以最高档1200元/年,缴满15年计,到60周岁每月可领取237元(按现行标准)。如到60周岁,未缴满

2016-06-14 11:29:03 8862

原创 为什么我的hosts文件修改无效?

很多朋友可能碰到了这样的问题,用来屏蔽某些恶意网址的时候,修改了hosts 文件,但是却总是不生效。上网搜索了一下,Windows7系统和Vista系统、XP系统都碰到了此类情况,看来问题还很普遍。今天特别附上一则解决办法,未必通杀,但确实是解决了很多这种情况下的问题。解决这个问题之前,我们先来简略谈下hosts文件,很多新手朋友可能还不了解,软媒最早在Vista之家上面曾

2016-06-09 22:32:18 1645

原创 #!/usr/bin/env python与#!/usr/bin/python的区别

脚本语言的第一行,目的就是指出,你想要你的这个文件中的代码用什么可执行程序去运行它,就这么简单#!/usr/bin/Python是告诉操作系统执行这个脚本的时候,调用/usr/bin下的python解释器;#!/usr/bin/env python这种用法是为了防止操作系统用户没有将python装在默认的/usr/bin路径里。当系统看到这一行的时候,首先会到env设置里查找pytho

2016-06-08 21:09:11 1135

原创 Hive小文件合并

背景Hive query将运算好的数据写回hdfs(比如insertinto语句),有时候会产生大量的小文件,如果不采用CombineHiveInputFormat就对这些小文件进行操作的话会产生大量的map task,耗费大量集群资源,而且小文件过多会对namenode造成很大压力。所以Hive在正常job执行完之后,会起一个conditionaltask,来判断是否需要合并小文件,如果满足

2016-06-03 20:02:48 1337

原创 hive 设置参数列表

hive.exec.mode.local.auto 决定 Hive 是否应该自动地根据输入文件大小,在本地运行(在GateWay运行) truehive.exec.mode.local.auto.inputbytes.max 如果 hive.exec.mode.local.auto 为 true,当输入文件大小小于此阈值时可以自动在本地模式运行,默认是 128兆。 134217728

2016-06-03 19:55:48 1643

原创 hive的压缩设置

压缩配置:  map/reduce 输出压缩(一般采用序列化文件存储)set hive.exec.compress.output=true;set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;set mapred.output.compression.type=BLOCK;

2016-06-03 19:51:59 11502 1

转载 Hive 基础

1、Hive 分区表在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。分区表指的是在创建表时指定的partition的分区空间。Hive可以对数据按照某列或者某些列进行分区管理,所谓分区我们可以拿下面的例子进行解释。当前互联网应用每天都要存储大量的日志文件,几G、几十G甚至更大

2016-06-03 19:46:35 1893

原创 hive的三板斧:内部表和外部表、分区和分桶以及序列化/反序列化(SerDe)

Hive是Hadoop生态圈中实现数据仓库的一项技术。虽然Hadoop和HDFS的设计局限了Hive所能胜任的工作,但是Hive仍然是目前互联网中最适合数据仓库的应用技术。 不论从“品相还是举止”,Hive都像一个关系型数据库。用户对数据库、表和列这类术语比较熟悉的话,那么掌握Hive的查询语言HQL也轻而易举。不过,Hive的实现和使用方式与传统的关系数据库相比,有很多不同的地方。我们H

2016-06-03 19:44:45 3790

原创 linux的exec和source命令区别

exec和source都属于bash内部命令(builtins commands),在bash下输入man exec或man source可以查看所有的内部命令信息。bash shell的命令分为两类:外部命令和内部命令。外部命令是通过系统调用或独立的程序实现的,如sed、awk等等。内部命令是由特殊的文件格式(.def)所实现,如cd、history、exec等等。在说明exe和

2016-06-03 19:30:52 1730

原创 hive优化记录----合并小文件压缩输出

Hive简要介绍Hive是基于Hadoop的数据仓库平台,由Facebook贡献,其支持类似SQL的结构化查询功能。Hive的组件总体上可以分为以下几个部分:用户接口(UI)、驱动、编译器、元数据(Hive系统参数数据)和执行引擎。1) 对外的接口UI包括以下几种:命令行CLI,Web界面、JDBC/ODBC接口;2) 驱动:接收用户提交的查询HQL;3) 编译器:解析查询语句

2016-06-03 19:16:39 15466 2

原创 linux的IO调度算法

Linux IO调度程序是块设备I/O子系统的主要组件,它介于通用块层和块设备驱动程序之间,如下图所示。当Linux内核组件要读写数据时,并非一有请求便立即执行,而是将请求放入请求(输入)队列,并推迟执行。为什么如此设计?原因在于Linux需要应对的最核心的块设备是磁盘。磁盘的寻道时间严重制约磁盘性能,若想提高磁盘IO性能必须想尽办法减少磁盘寻道次数。块设备I/O子系统最核心的任务

2016-06-02 21:58:04 1166

原创 Hive程序传递变量

图 1 外部向Hive程序中传递变量的方法使用Hive编写程序最常用的方法是将Hive语句写到文件中,然后使用hive -f filename.hql来批量执行查询语句。经常需要将外部参数传入到hql语句中替换其中的变量来动态执行任务,比如动态设定数据库名、表名、时间值、字段序列等变量,以达到脚本泛化执行的目的。1) 方法1:字符串、正则、模板引擎等暴力方式替换最简单也

2016-06-02 21:22:08 1977

原创 HDFS常用命令列表

一、appendToFile:将一个或多个目标文件append到hdfs文件中,目标文件可以为本地文件或者stdin。    使用方式:hdfs dfs -appendToFile     1) ./hdfs dfs -appendToFile /data.txt /hdfs/data.txt    2) ./hdfs dfs -appendToFile /data.tx

2016-06-02 21:17:24 2793

原创 shell脚本输出1-1000内的偶数

我们可以通过for循环结合seq来进行使用。start=0;total=0;for i in $(seq $start 2 1000); do total=$(($total+$i));done;echo $total;seq的使用指南:seq [OPTION]... LASTseq [OPTION]... FIRST LASTseq [OPTION]..

2016-06-02 21:13:35 7002

原创 shell脚本的时间指令date

date -u:直接输出时间date -u +%Y%m%d20160602date -d://时间天数加减昨天:date -d"-1 day" +%Y%m%d 20160601(1)年月天数相减:date -d"+3 year -3 month -5 day" +%Y-%m-%d2019-02-25(2)年月日格式2:date -d"+3 yea

2016-06-02 20:51:26 1407

原创 shell 实现N位自动补零和日期循环

用awk的printf就可以补位# 仅适用于数字 printf "%04d\n" 86 echo 86|awk '{printf("%04d\n",$0)}'下面是我实际应用中使用的一个脚本,目的是批量修改hdfs上的文件名,输入两个参数即可,就是开始时间和结束时间,然后用whil去循环。#example------nohup sh hdfs_ren

2016-06-02 20:47:46 15072

数电报告莫版

数电报告莫版

2012-07-12

数电课件科技

数电课件

2012-07-12

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除