- 博客(139)
- 资源 (1)
- 收藏
- 关注
转载 spark性能优化1
在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速度更快、性能
2016-07-15 19:46:34 486
转载 Spark性能优化2
继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spar
2016-07-15 19:45:20 442
转载 transient的作用及使用方法
转:http://www.cnblogs.com/lanxuezaipiao/p/3369962.html 1. transient的作用及使用方法 我们都知道一个对象只要实现了Serilizable接口,这个对象就可以被序列化,java的这种序列化模式为开发者提供了很多便利,我们可以不必关系具体序列化的过程,只要这个类实现了Serilizable接口,这个类的所有属性和方法都会自动序列化。
2016-04-18 11:05:01 3169 1
转载 transient用法
转:http://www.cnblogs.com/lanxuezaipiao/p/3369962.html1. transient的作用及使用方法 我们都知道一个对象只要实现了Serilizable接口,这个对象就可以被序列化,java的这种序列化模式为开发者提供了很多便利,我们可以不必关系具体序列化的过程,只要这个类实现了Serilizable接口,这个
2016-03-18 17:57:41 502
转载 spark配置优化
转http://www.csdn.net/article/2015-07-08/2825160【Spark集群并行度】在Spark集群环境下,只有足够高的并行度才能使系统资源得到充分的利用,可以通过修改spark-env.sh来调整Executor的数量和使用资源,Standalone和YARN方式资源的调度管理是不同的。在Standalone模式下:1. 每个节点
2016-03-16 11:18:23 1002
原创 初识presto
部署:由于presto需要jdk1.8的环境,但是CDH5目前是1.7的jdk,所以暂时采用的方法是在presto的server机器里安装jdk8,然后在终端export(保证对本终端采用jdk8的配置)具体如下:安装Presto下载Presto server tarball, presto-server-0.139.tar.gz,将它解压。 它包含一个顶级
2016-03-01 15:54:15 846
原创 RabbitMq权限问题
单节点不存在该问题。异常:Exception in thread "main" java.io.IOExceptionat com.rabbitmq.client.impl.AMQChannel.wrap(AMQChannel.java:106)at com.rabbitmq.client.impl.AMQChannel.wrap(AMQChannel.java:102)
2016-01-27 15:10:15 15872 5
转载 初识storm
分类: Hadoop1.hadoop有master与slave,Storm与之对应的节点是什么?2.Storm控制节点上面运行一个后台程序被称之为什么?3.Supervisor的作用是什么?4.Topology与Worker之间的关系是什么?5.Nimbus和Supervisor之间的所有协调工作有master来完成,还是Zookeeper集群完成?6.
2016-01-22 15:56:56 418
转载 优化HIVE
1、提前过滤数据,减少中间数据依赖:尽量尽早的过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的数据。如下,改写后的写法将会大大减少join的数据量select ... from Ajoin Bon A.key = B.keywhere A.userid>
2016-01-20 18:02:02 571
转载 mR 随机抽样
1. 问题由来Google曾经有一道非常经典的面试题:给你一个长度为N的链表。N很大,但你不知道N有多大。你的任务是从这N个元素中随机取出k个元素。你只能遍历这个链表一次。你的算法必须保证取出的元素恰好有k个,且它们是完全随机的(出现概率均等)?这道题的解法非常多,网上讨论也非常热烈。本文要讨论的是,这个问题是从何而来,有什么实用价值?自从有了Hadoop之后,该问题便
2015-12-05 14:29:59 989
转载 spark 点滴:多路输出,自定义分区
多路输出:import org.apache.spark.{HashPartitioner, SparkContext, SparkConf}import org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.hadoop.mapred.lib.MultipleTextOutputFor
2015-11-06 14:57:03 2354
转载 spark点滴之map-flatMap~mappartition~sortBY~fold~combinebykey~分区~mvn~scala
map 和 flatMap:通过一个实验来看Spark 中 map 与 flatMap 的区别。步骤一:将测试数据放到hdfs上面hadoopdfs -put data1/test1.txt /tmp/test1.txt该测试数据有两行文本:line oneline two步骤二:在Spark中创建一个RDD来读取
2015-10-26 17:45:49 1566
原创 github上传
首先github建好repositories:https://github.com/*******/TempanalyzeProject.git1、本地工程目录下:git init,然后git status查看哪些不许上传2、本地工程目录下:vi .gitignore/target.classpath.project/logs.settings即除去上传的文件
2015-09-09 22:16:08 372
转载 map-combine过程解
●read阶段:通过RecordReader从InputSplit分片中将数据解析成一个个key/value。 ●map阶段:将由RecordReader解析出的key/value交给map()方法处理,并生成一个个新的key/value。 ●collect阶段:将map()中新生成key/value由OutpCollector.collect()写入内
2015-09-09 14:42:02 1415 1
转载 Hadoop 推测式任务 Hadoop Speculative Task
转:http://blog.csdn.net/yfkiss/article/details/10589137在分布式计算环境中,一个job会被拆解为多个task,由于各种软硬件异常,某些task运行速度较慢,拖慢了整个job完成时间对于这些运行速度较慢的task,Hadoop不会尝试诊断或者修复,而是分析出哪些task运行较慢,针对这些运行较慢的task,启动一些backup的task
2015-06-29 22:29:12 701
转载 python 爬虫入门
#!/usr/bin/python # -*- coding:utf-8 -*-from urllib import urlopenfrom lxml import etree# import lxml.html.soupparser as soupparserorign = "http://www.cedf.org.cn"webpage = u
2015-05-11 11:07:29 520
转载 hive 控制 输出分割符
hive> insert overwrite local directory '/home/yangping.wu/local' > row format delimited > fields terminated by '\t' > select * from wyp;[wyp@master ~/local]$ vim 000000_05 wyp1
2015-03-23 09:18:07 552
转载 Mahout – Clustering (聚类篇)
转:http://www.coder4.com/archives/41815 Replies什么是Mahout?” Apache Mahout™ project’s goal is to build a scalable machine learning library ”我来拓展一下:(1) Mahout 是Apache旗下的开源项目,集成了大量的机器学习
2015-03-20 11:50:40 808
原创 sbt 安装及使用
echo "deb http://dl.bintray.com/sbt/debian /" | sudo tee -a /etc/apt/sources.list.d/sbt.listsudo apt-get updatesudo apt-get install sbt使用:actions – 显示对当前工程可用的命令update – 下载依赖compile – 编译代码tes
2015-01-30 15:17:11 576
转载 读写lzo
一、读lzo在 《Hadoop 2.2.0安装和配置lzo》 文章中介绍了如何基于 Hadoop 2.2.0安装lzo。里面简单介绍了如果在Hive里面使用lzo数据。今天主要来说说如何在Hadoop 2.2.0中使用lzo压缩文件当作的数据。 lzo压缩默认的是不支持切分的,也就是说,如果直接把lzo文件当作Mapreduce任务的输入,那么Mapreduce只会用一个Map来
2015-01-22 21:17:05 1573
转载 streaming 使用
又是期末又是实训TA的事耽搁了好久……先把写好的放上博客吧相关随笔:Hadoop-1.0.4集群搭建笔记用python + hadoop streaming 编写分布式程序(一) -- 原理介绍,样例程序与本地调试用python + hadoop streaming 编写分布式程序(二) -- 在集群上运行与监控使用额外的文件假如你跑的job除了输入以外还需
2014-10-31 17:57:13 771
转载 Storm on yarn安装
参考:[1] http://hi.baidu.com/clockfly/item/f977cad1239bd94fddf9beea[2] http://blog.csdn.net/jiushuai/article/details/187293671. 已有的环境 Java代码 a. 安装有HDFS文件系统
2014-09-02 17:47:11 681
原创 hive_hbase
版本匹配hive-hbase配置:把hbase对应jar包替换掉hive/lib下的包,cp protobuf-java-2.4.0a.jar /opt/hadoop/hive/lib启动hivehive --auxpath /opt/hadoop/hive/lib/hbase-0.94.10-security.jar,/opt/hadoop/hive/lib/hive-h
2014-08-21 17:49:01 911
转载 mahout 推荐 参数
org.apache.mahout.cf.taste.Hadoop.item.RecommenderJob。其输入数据放在默认输入目录下,使用mapred.input.dir参数指定的输入数据,是userID,itemID[,preferencevalue]值对形成的文本文件。可以有多个文件存放在该目录下。运行时相关参数如下:numRecommendations:为每个用户产生的推
2014-08-19 21:10:07 973 1
原创 mr 过程setSortComparatorClass和setGroupingComparatorClass
job.setPartitionerClass(PartitionClass.class);job.setSortComparatorClass(SortComparator.class);job.setGroupingComparatorClass(Grouptail.class);
2014-08-15 18:00:07 4474 1
原创 python处理json
jsonreaded = json.load(open('jsonsource.dat', 'r'))json.dump(readed, open('newjsonfile.dat', 'w'))
2014-08-14 18:19:40 495
转载 hive struct\map\array
hive提供了复合数据类型:Structs: structs内部的数据可以通过DOT(.)来存取,例如,表中一列c的类型为STRUCT{a INT; b INT},我们可以通过c.a来访问域aMaps(K-V对):访问指定域可以通过["指定域名称"]进行,例如,一个Map M包含了一个group-》gid的kv对,gid的值可以通过M['group']来获取Arrays:array中的
2014-08-05 19:21:41 573
转载 Solr开发<转>
Solr开发文档Solr 是一种可供企业使用的、基于 Lucene 的搜索服务器,它支持层面搜索、命中醒目显示和多种输出格式。在这篇文章中,将介绍 Solr 并展示如何轻松地将其表现优异的全文本搜索功能加入到 Web 应用程序中。开发环境:System:WindowsWebBrowser:IE6+、Firefox3+JDK:1.6+JavaEE Se
2014-07-24 14:49:20 441
转载 MR 中获取输入文件路径
在mapper中获取当前正在处理的HDFS文件名/HDFS目录名有时候,Hadoop是按行来对数据进行处理的,由于对每一行数据,map()函数会被调用一次,我们有时可以根据文件名/目录名来获取一些信息,从而把它们输出,例如,目录名中包含了日期,则我们可以取出来并输出到Reducer。在map()函数中,我们可以这样取文件名:12
2014-07-08 14:58:46 1655
转载 调整Hbase中cell大小
跑mapreduce任务时,在reduce时遇到下列错误:KeyValue size too large hadoop解决办法:修改hbase-site.xml增加hbase.client.keyvalue.maxsize500mhbase.client.keyvalue.maxsize 缺省10MB,包括row key,qualifie
2014-07-04 11:46:23 6337
转载 MR二次排序
关于二次排序主要涉及到这么几个东西:在0.20.0 以前使用的是setPartitionerClass setOutputkeyComparatorClasssetOutputValueGroupingComparator 在0.20.0以后使用是job.setPartitionerClass(Partitioner p);job.se
2014-07-01 18:48:00 1419
转载 java文件操作
一.获得控制台用户输入的信息 public String getInputMessage() throws IOException...{ System.out.println("请输入您的命令∶"); byte buffer[]=new byte[1024]; int count=System.in.read(buffe
2014-06-27 18:16:33 371
转载 java\streaming 传外部参数
本文主要讲解三个问题: 1 使用Java编写MapReduce程序时,如何向map、reduce函数传递参数。 2 使用Streaming编写MapReduce程序(C/C++, Shell, Python)时,如何向map、reduce脚本传递参数。 3 使用Streaming编写MapReduce程序(C/C++, Shell, Python)时,如何
2014-06-27 18:04:07 1872
转载 hadoop mapreduce 多输入路径
1.多路径输入1)FileInputFormat.addInputPath 多次调用加载不同路径FileInputFormat.addInputPath(job, new Path("hdfs://RS5-112:9000/cs/path1"));FileInputFormat.addInputPath(job, new Path("hdfs://RS5-112:9000/cs
2014-06-27 15:38:00 1283
转载 RHadoop实践系列之二:RHadoop安装与使用
2013/03/24软件应用hadoop、MapReduce、R、rhadoop、海量数据张 丹Author:张丹(Conan)Date: 2013-03-07Weibo: @Conan_ZEmail: bsspirit@gmail.comBlog: http://www.fens.me/blogAPPs:@晒粉丝 http://www.fens.me
2014-06-18 18:25:15 750
转载 R语言安装部署
ubuntu12.04 安装R语言环境3.01#sudo vim /etc/apt/sources.list添加#deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/#sudo apt-get update#gpg --keyserver pgpkeys.mit.edu --recv-key 9AA38DC
2014-06-18 18:15:24 1022
转载 R语言安装部署
ubuntu12.04 安装R语言环境3.01#sudo vim /etc/apt/sources.list添加#deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/#sudo apt-get update()#gpg --keyserver pgpkeys.mit.edu --recv-k
2014-06-18 18:12:20 807
转载 Hadoop Streaming 实战: 传递环境变量
环境变量可以理解程序运行的系统环境,用户可以对自己的运行环境进行定制,其方法就是修改相应的系统环境变量。 用JAVA实现的Map-Reduce程序可以通过Hadoop提供的编程接口访问作业的配置信息,而streaming程序不能使用JAVA编程接口,因此,streaming框架通过设置环境变量的方式给mapper、reducer程序传递配置信息。常用的环境变量如下:
2014-06-06 16:07:47 486
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人