自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(139)
  • 资源 (1)
  • 收藏
  • 关注

转载 spark性能优化1

在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速度更快、性能

2016-07-15 19:46:34 486

转载 Spark性能优化2

继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spar

2016-07-15 19:45:20 442

转载 transient的作用及使用方法

转:http://www.cnblogs.com/lanxuezaipiao/p/3369962.html 1. transient的作用及使用方法 我们都知道一个对象只要实现了Serilizable接口,这个对象就可以被序列化,java的这种序列化模式为开发者提供了很多便利,我们可以不必关系具体序列化的过程,只要这个类实现了Serilizable接口,这个类的所有属性和方法都会自动序列化。

2016-04-18 11:05:01 3169 1

转载 transient用法

转:http://www.cnblogs.com/lanxuezaipiao/p/3369962.html1. transient的作用及使用方法      我们都知道一个对象只要实现了Serilizable接口,这个对象就可以被序列化,java的这种序列化模式为开发者提供了很多便利,我们可以不必关系具体序列化的过程,只要这个类实现了Serilizable接口,这个

2016-03-18 17:57:41 502

转载 spark配置优化

转http://www.csdn.net/article/2015-07-08/2825160【Spark集群并行度】在Spark集群环境下,只有足够高的并行度才能使系统资源得到充分的利用,可以通过修改spark-env.sh来调整Executor的数量和使用资源,Standalone和YARN方式资源的调度管理是不同的。在Standalone模式下:1. 每个节点

2016-03-16 11:18:23 1002

原创 初识presto

部署:由于presto需要jdk1.8的环境,但是CDH5目前是1.7的jdk,所以暂时采用的方法是在presto的server机器里安装jdk8,然后在终端export(保证对本终端采用jdk8的配置)具体如下:安装Presto下载Presto server tarball, presto-server-0.139.tar.gz,将它解压。 它包含一个顶级

2016-03-01 15:54:15 846

原创 RabbitMq权限问题

单节点不存在该问题。异常:Exception in thread "main" java.io.IOExceptionat com.rabbitmq.client.impl.AMQChannel.wrap(AMQChannel.java:106)at com.rabbitmq.client.impl.AMQChannel.wrap(AMQChannel.java:102)

2016-01-27 15:10:15 15872 5

转载 初识storm

分类: Hadoop1.hadoop有master与slave,Storm与之对应的节点是什么?2.Storm控制节点上面运行一个后台程序被称之为什么?3.Supervisor的作用是什么?4.Topology与Worker之间的关系是什么?5.Nimbus和Supervisor之间的所有协调工作有master来完成,还是Zookeeper集群完成?6.

2016-01-22 15:56:56 418

转载 优化HIVE

1、提前过滤数据,减少中间数据依赖:尽量尽早的过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的数据。如下,改写后的写法将会大大减少join的数据量select ... from Ajoin Bon A.key = B.keywhere A.userid>

2016-01-20 18:02:02 571

转载 mR 随机抽样

1. 问题由来Google曾经有一道非常经典的面试题:给你一个长度为N的链表。N很大,但你不知道N有多大。你的任务是从这N个元素中随机取出k个元素。你只能遍历这个链表一次。你的算法必须保证取出的元素恰好有k个,且它们是完全随机的(出现概率均等)?这道题的解法非常多,网上讨论也非常热烈。本文要讨论的是,这个问题是从何而来,有什么实用价值?自从有了Hadoop之后,该问题便

2015-12-05 14:29:59 989

转载 spark 点滴:多路输出,自定义分区

多路输出:import org.apache.spark.{HashPartitioner, SparkContext, SparkConf}import org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.hadoop.mapred.lib.MultipleTextOutputFor

2015-11-06 14:57:03 2354

转载 spark点滴之map-flatMap~mappartition~sortBY~fold~combinebykey~分区~mvn~scala

map 和 flatMap:通过一个实验来看Spark 中 map 与 flatMap 的区别。步骤一:将测试数据放到hdfs上面hadoopdfs -put data1/test1.txt /tmp/test1.txt该测试数据有两行文本:line oneline two步骤二:在Spark中创建一个RDD来读取

2015-10-26 17:45:49 1566

原创 github上传

首先github建好repositories:https://github.com/*******/TempanalyzeProject.git1、本地工程目录下:git init,然后git status查看哪些不许上传2、本地工程目录下:vi .gitignore/target.classpath.project/logs.settings即除去上传的文件

2015-09-09 22:16:08 372

转载 map-combine过程解

●read阶段:通过RecordReader从InputSplit分片中将数据解析成一个个key/value。          ●map阶段:将由RecordReader解析出的key/value交给map()方法处理,并生成一个个新的key/value。          ●collect阶段:将map()中新生成key/value由OutpCollector.collect()写入内

2015-09-09 14:42:02 1415 1

转载 Hadoop 推测式任务 Hadoop Speculative Task

转:http://blog.csdn.net/yfkiss/article/details/10589137在分布式计算环境中,一个job会被拆解为多个task,由于各种软硬件异常,某些task运行速度较慢,拖慢了整个job完成时间对于这些运行速度较慢的task,Hadoop不会尝试诊断或者修复,而是分析出哪些task运行较慢,针对这些运行较慢的task,启动一些backup的task

2015-06-29 22:29:12 701

转载 python 爬虫入门

#!/usr/bin/python # -*- coding:utf-8 -*-from urllib import urlopenfrom lxml import etree# import lxml.html.soupparser as soupparserorign = "http://www.cedf.org.cn"webpage = u

2015-05-11 11:07:29 520

转载 hive 控制 输出分割符

hive> insert overwrite local directory '/home/yangping.wu/local' > row format delimited > fields terminated by '\t' > select * from wyp;[wyp@master ~/local]$ vim 000000_05 wyp1

2015-03-23 09:18:07 552

转载 Mahout – Clustering (聚类篇)

转:http://www.coder4.com/archives/41815 Replies什么是Mahout?” Apache Mahout™ project’s goal is to build a scalable machine learning library ”我来拓展一下:(1) Mahout 是Apache旗下的开源项目,集成了大量的机器学习

2015-03-20 11:50:40 808

原创 sbt 安装及使用

echo "deb http://dl.bintray.com/sbt/debian /" | sudo tee -a /etc/apt/sources.list.d/sbt.listsudo apt-get updatesudo apt-get install sbt使用:actions – 显示对当前工程可用的命令update – 下载依赖compile – 编译代码tes

2015-01-30 15:17:11 576

转载 读写lzo

一、读lzo在 《Hadoop 2.2.0安装和配置lzo》 文章中介绍了如何基于 Hadoop 2.2.0安装lzo。里面简单介绍了如果在Hive里面使用lzo数据。今天主要来说说如何在Hadoop 2.2.0中使用lzo压缩文件当作的数据。  lzo压缩默认的是不支持切分的,也就是说,如果直接把lzo文件当作Mapreduce任务的输入,那么Mapreduce只会用一个Map来

2015-01-22 21:17:05 1573

转载 streaming 使用

又是期末又是实训TA的事耽搁了好久……先把写好的放上博客吧相关随笔:Hadoop-1.0.4集群搭建笔记用python + hadoop streaming 编写分布式程序(一) -- 原理介绍,样例程序与本地调试用python + hadoop streaming 编写分布式程序(二) -- 在集群上运行与监控使用额外的文件假如你跑的job除了输入以外还需

2014-10-31 17:57:13 771

转载 Storm on yarn安装

参考:[1] http://hi.baidu.com/clockfly/item/f977cad1239bd94fddf9beea[2] http://blog.csdn.net/jiushuai/article/details/187293671.     已有的环境 Java代码  a.     安装有HDFS文件系统  

2014-09-02 17:47:11 681

原创 cdh安装注意及客户端安装

1:sudo  passwd  root给root账户加密码2: sudo apt

2014-09-02 10:40:00 2951

原创 hive_hbase

版本匹配hive-hbase配置:把hbase对应jar包替换掉hive/lib下的包,cp protobuf-java-2.4.0a.jar /opt/hadoop/hive/lib启动hivehive --auxpath /opt/hadoop/hive/lib/hbase-0.94.10-security.jar,/opt/hadoop/hive/lib/hive-h

2014-08-21 17:49:01 911

转载 mahout 推荐 参数

org.apache.mahout.cf.taste.Hadoop.item.RecommenderJob。其输入数据放在默认输入目录下,使用mapred.input.dir参数指定的输入数据,是userID,itemID[,preferencevalue]值对形成的文本文件。可以有多个文件存放在该目录下。运行时相关参数如下:numRecommendations:为每个用户产生的推

2014-08-19 21:10:07 973 1

原创 mr 过程setSortComparatorClass和setGroupingComparatorClass

job.setPartitionerClass(PartitionClass.class);job.setSortComparatorClass(SortComparator.class);job.setGroupingComparatorClass(Grouptail.class);

2014-08-15 18:00:07 4474 1

原创 python处理json

jsonreaded = json.load(open('jsonsource.dat', 'r'))json.dump(readed, open('newjsonfile.dat', 'w'))

2014-08-14 18:19:40 495

转载 hive struct\map\array

hive提供了复合数据类型:Structs: structs内部的数据可以通过DOT(.)来存取,例如,表中一列c的类型为STRUCT{a INT; b INT},我们可以通过c.a来访问域aMaps(K-V对):访问指定域可以通过["指定域名称"]进行,例如,一个Map M包含了一个group-》gid的kv对,gid的值可以通过M['group']来获取Arrays:array中的

2014-08-05 19:21:41 573

原创 ubuntu挂载新的vdi以及安装扩展包

sudo fdisk -l  查看vdisudo  fdisk /dev/sdb

2014-07-29 09:27:28 1011

转载 Solr开发<转>

Solr开发文档Solr 是一种可供企业使用的、基于 Lucene 的搜索服务器,它支持层面搜索、命中醒目显示和多种输出格式。在这篇文章中,将介绍 Solr 并展示如何轻松地将其表现优异的全文本搜索功能加入到 Web 应用程序中。开发环境:System:WindowsWebBrowser:IE6+、Firefox3+JDK:1.6+JavaEE Se

2014-07-24 14:49:20 441

转载 MR 中获取输入文件路径

在mapper中获取当前正在处理的HDFS文件名/HDFS目录名有时候,Hadoop是按行来对数据进行处理的,由于对每一行数据,map()函数会被调用一次,我们有时可以根据文件名/目录名来获取一些信息,从而把它们输出,例如,目录名中包含了日期,则我们可以取出来并输出到Reducer。在map()函数中,我们可以这样取文件名:12

2014-07-08 14:58:46 1655

转载 调整Hbase中cell大小

跑mapreduce任务时,在reduce时遇到下列错误:KeyValue size too large hadoop解决办法:修改hbase-site.xml增加hbase.client.keyvalue.maxsize500mhbase.client.keyvalue.maxsize 缺省10MB,包括row key,qualifie

2014-07-04 11:46:23 6337

转载 MR二次排序

关于二次排序主要涉及到这么几个东西:在0.20.0 以前使用的是setPartitionerClass setOutputkeyComparatorClasssetOutputValueGroupingComparator  在0.20.0以后使用是job.setPartitionerClass(Partitioner p);job.se

2014-07-01 18:48:00 1419

转载 java文件操作

一.获得控制台用户输入的信息     public String getInputMessage() throws IOException...{         System.out.println("请输入您的命令∶");         byte buffer[]=new byte[1024];         int count=System.in.read(buffe

2014-06-27 18:16:33 371

转载 java\streaming 传外部参数

本文主要讲解三个问题:      1 使用Java编写MapReduce程序时,如何向map、reduce函数传递参数。      2 使用Streaming编写MapReduce程序(C/C++, Shell, Python)时,如何向map、reduce脚本传递参数。      3 使用Streaming编写MapReduce程序(C/C++, Shell, Python)时,如何

2014-06-27 18:04:07 1872

转载 hadoop mapreduce 多输入路径

1.多路径输入1)FileInputFormat.addInputPath 多次调用加载不同路径FileInputFormat.addInputPath(job, new Path("hdfs://RS5-112:9000/cs/path1"));FileInputFormat.addInputPath(job, new Path("hdfs://RS5-112:9000/cs

2014-06-27 15:38:00 1283

转载 RHadoop实践系列之二:RHadoop安装与使用

2013/03/24软件应用hadoop、MapReduce、R、rhadoop、海量数据张 丹Author:张丹(Conan)Date: 2013-03-07Weibo: @Conan_ZEmail: bsspirit@gmail.comBlog: http://www.fens.me/blogAPPs:@晒粉丝 http://www.fens.me

2014-06-18 18:25:15 750

转载 R语言安装部署

ubuntu12.04 安装R语言环境3.01#sudo vim /etc/apt/sources.list添加#deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/#sudo apt-get update#gpg --keyserver pgpkeys.mit.edu --recv-key 9AA38DC

2014-06-18 18:15:24 1022

转载 R语言安装部署

ubuntu12.04 安装R语言环境3.01#sudo vim /etc/apt/sources.list添加#deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/#sudo apt-get update()#gpg --keyserver pgpkeys.mit.edu --recv-k

2014-06-18 18:12:20 807

转载 Hadoop Streaming 实战: 传递环境变量

环境变量可以理解程序运行的系统环境,用户可以对自己的运行环境进行定制,其方法就是修改相应的系统环境变量。        用JAVA实现的Map-Reduce程序可以通过Hadoop提供的编程接口访问作业的配置信息,而streaming程序不能使用JAVA编程接口,因此,streaming框架通过设置环境变量的方式给mapper、reducer程序传递配置信息。常用的环境变量如下:

2014-06-06 16:07:47 486

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除