2015年09月_冥想者-定

转载 Map Reduce个数问题

默认的partitioner是HashPartitioner，它对每条记录的键进行哈希操作以决定该记录应该属于那个分区，每个分区对于一个reduce任务，所以分区数等于作业的reduce数目public class HashPartitioner extends Partitioner{public int getParttion(K key, V value ,int numP

2015-09-30 21:22:27 348

原创应用程序通过对键中的气温进行排序来找出最高气温

public class MaxTemperatureUsingSecondarySort extends Configured implements Tools{ static class MaxTemperatureMapper extends Mapper{ private NcdcRecordParer parser = new NcdcRecordParser()

2015-09-30 20:11:56 460

转载 Hadoop框架排序和分组的理解

http://blog.csdn.net/zuochanxiaoheshang/article/details/8986114MapReduce框架会确保每一个Reducer的输入都是按Key进行排序的。一般，将排序以及Map的输出传输到Reduce的过程称为混洗（shuffle)。每一个Map都包含一个环形的缓存，默认100M，Map首先将输出写到缓存当中

2015-09-30 15:03:16 340

原创 hadoop全局排序思路

import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.SequenceFile.Co

2015-09-30 14:23:05 673

转载 hive全排序优化

http://www.2cto.com/database/201307/225510.htmlhive全排序优化全排序Hive的排序关键字是SORT BY，它有意区别于传统数据库的ORDER BY也是为了强调两者的区别–SORT BY只能在单机范围内排序。考虑以下表定义： CREATE TABLE if not exists t_order(

2015-09-30 14:13:41 748

转载 hive 中的排序优化

http://blog.csdn.net/jiedushi/article/details/7651622在hive中进行字段排序统计过程中，使用ORDER BY是全局排序，hive只能通过一个reduce进行排序.效率很低，采用hive提供的distribute by +sort by或者CLUSTER BY, 这样可以充分利用hadoop资源，在多个reduce中局部按需要排序的

2015-09-30 14:12:53 500

转载 Hadoop简单实现全排序

http://blog.csdn.net/yeruby/article/details/21233661做毕设用到Hadoop的全排序处理大数据，接触Hadoop已经2个月了，进展缓慢，深刻认识到进入到一个好的团队、共同研究是多么的重要，以此纪念我的大四一个人的毕设。废话不多说，我实现了整形和字符串型的全排序。基础知识：1. TeraSo

2015-09-30 14:04:20 338

转载 hive中的全排序

写mapreduce程序时，如果reduce个数>1，想要实现全排序需要控制好map的输出，详见hadoop简单实现全排序现在学了hive，写sql大家都很熟悉，如果一个order by解决了全排序还用那么麻烦写mapreduce函数吗？事实上，hive使用order by会默认设置reduce的个数=1，既然reducer的个数都是1了，结果自然全排序！这也违背了充分利用

2015-09-30 13:59:09 381

原创 hadoop内置的计数器分组

组别名称、类别MapReduce任务计数 org.apache.hadoop.mapreduce.TaskCounter文件系统计数器 org.apache.hadoop.mapreduce.FileSystemCounterFileInputFormat org.apache.hadoop.mapreduce.lib.input.FileInputFormatCounterF

2015-09-30 10:13:50 1158

转载多个输入

一种多个输入是指的：相同的Mapper 和 InputFormat就直接调用 FileInputFormat.addInputPath(job, inputPath); FileOutputFormat.setOutputPath(job, new Path(args[1]));另外一种是指的-=========================

2015-09-29 18:45:23 465

转载把整个文件作为一条记录处理 WholeFileInputFomrat

有时，Mapper需要访问一个文件中全部的内容，几十不分割文件，仍然需要一个RecordReader来读取文件内容作为 record的值，

2015-09-29 17:05:23 404

转载 Mapper中的文件信息

处理文件输入分片的mapper可以从作业配置对象的某些特定的属性中读取输入分片的相关信息，这可以通过调用在mapper的Context对象上的getInputSplit方法来实现，当输入的格式源来自原FileInputFormat的时候，该方法返回的InputSplit可以被强制转换成一个FileSplit ，hadoop权威指南 page= 260

2015-09-29 17:03:38 312

转载 MR避免切分

有些应用程序可能不希望文件被切分，而是用一个mapper完整处理每一个输入文件，例如检查一个文件中所有记录是否有序，一个简单的方法是顺序扫描每一条记录并且比较后一条记录是否比前一条要小。如果将它实现为一个map任务，那么只有一个map操作整个文件时，这个算法才可行。有两种方法可以保证输入文件不给切分，A 最简单但是不怎么漂亮（增加最小分片大小，将他设置成大于要处理的最大

2015-09-29 17:00:58 576

转载 Notepad++ 快捷键大全

http://www.cnblogs.com/albert1017/archive/2012/08/09/2630405.htmlNotepad++ 快捷键大全Ctrl+C 复制Ctrl+X 剪切Ctrl+V 粘贴Ctrl+Z 撤消Ctrl+Y 恢复Ctrl+A 全选Ctrl+F 键查找对话框启动Ctrl+H 查找/替换对话框Ctrl+

2015-09-29 13:46:40 366

转载小文件与CombineFileInputFormat

1GB的文件分割成16个64M与 100KB的10000个快10000每个文件都需要使用一个map操作，作业时间比一个文件上的16个map操作慢几十甚至几百倍。CombineFileInputFomat可以缓冲这个问题，他是针对小文件而设计的， FileInputFormat为每个文件产生一个分片，而CombineFileInputFormat把多个文件打包到一个分片中以便每个

2015-09-29 13:45:56 721

原创 InputFormat

combineFile【一般用于合并多个小文件做为一个map的输入】textInputFomat【默认的map输入，key偏移量，v这一行的值】FileInputFomatKeyValueTextInputFomat【默认以制表符为分隔符，k就是前面部分，v就是后半部分】InputFormat NlineInputFormat【N只是得多少行，以固定行数为每一个map分配，k

2015-09-29 11:12:50 427

转载 JAVA中的数据存储（堆及堆栈）

转自：http://www.iteye.com/topic/6345301.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中(对象可能在常量池里)（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（

2015-09-28 19:36:20 455

转载 Java垃圾回收工作原理

无意中在网络上找到了这篇介绍垃圾回收机制的文章，好文！转一下：垃圾回收器是如何工作的？我现在就简单的介绍一下首先要明确几点：Java是在堆上为对象分配空间的垃圾回收器只跟内存有关，什么IO啊，网络连接啊，管它P事当可用内存数量较低时，Sun版本的垃圾回收器才会被激活在垃圾回收器回收垃圾之前，我们先来了解一下Java分配对象的方式，Java的堆更像一个

2015-09-28 19:18:55 455

转载 Java垃圾回收机制

http://blog.csdn.net/zsuguangh/article/details/6429592综合了若干人的blog～1. 垃圾回收的意义　　在C++中，对象所占的内存在程序结束运行之前一直被占用，在明确释放之前不能分配给其它对象；而在Java中，当没有对象引用指向原先分配给某个对象的内存时，该内存便成为垃圾。JVM的一个系统级线程会自动释放该内存块。垃圾回收

2015-09-28 18:15:42 344

转载 MR推测执行

mapred.map.tasks.speculative.execution booleantrue 如果任务运行变慢，该属性决定了是否要启动一个map任务的另外一个实力mapred.reduce.tasks.speculative.execution boolean true 如果任务运行变慢，该属性决定这是否需要启动一个reduce任务yarn.app.mapreduce.

2015-09-28 16:31:10 1837

转载 MR的调优

map端调优io.sort.mb int 100 排序map输出时所使用的内存缓冲区的大小io.sort.record.percent float0.05 用作存储map输出记录边界的io.sort.mv的比例，神域的空间用来存储map输出记录本身， 1.0版本后删除该属性io.sort.spill.percent float0.8

2015-09-28 16:12:55 1251

转载 Shuffle和排序

MR确保每个reduce 的输入都是按键排序的，系统执行排序的过程（即map输出作为输入传给reduce）称为shuffle，，shuffle术语不断被优化和改进的代码库的一部分，从许多方面来看， shuffle是MR的心脏，是奇迹发生的地方。1、map端 map函数开始产生输出时，并不是简单的将它写到磁盘，这个过程更加复杂，他利用缓冲的方式写到内存中并处于效率

2015-09-28 15:08:27 660

转载解决Android LogCat 输出乱码的问题(转) -相当有用做自动化测试时

http://www.cnblogs.com/qq78292959/p/3785832.html解决Android LogCat 输出乱码的问题(转)Android日志系统提供了记录和查看系统调试信息的功能。日志都是从各种软件和一些系统的缓冲区中记录下来的。可以使用adb的logcat 命令来查看系统日志缓冲区的内容，但是在实际操作时，会发现在CMD的DOS界面上

2015-09-25 10:37:08 1065

转载 Android自动化测试（UiAutomator）简要介绍

http://blog.csdn.net/g19920917/article/details/16131565互相学习android自动化测试，请关注我的微博：weibo.com/ganchaojiang 一、一个BUG引发的问题如果研发过程中有一个BUG：“不断的切换手机语言出现花屏现象”。这个问题我们如何验证呢？我想，最好的方式应该是自动

2015-09-24 16:35:27 554

转载 Uiautomator Api浅析

http://blog.sina.com.cn/s/blog_ae2575ff01018b2o.html标签： it 测试 android 杂谈从android sdk api 16开始，Android SDK开始支持两个做功能UI测试的新工具。uiautomatorviewer,一个用以扫描以及分析An

2015-09-24 09:55:19 543

转载如何在Android应用中加入广告

本文将介绍Android开发中如何加入广告的实际方法，相信你看完之后一定不再会为了加不进去广告而头疼。AD：很多人问到如何在应用中加入广告，今天刚好有一个新的小应用要加广告，一起算写一篇总结。先介绍一下我准备好的东西：应用：《快拍分享》，一个简单的拍照程序，并可以将应用拍好的照片发到自己的微博上的一个应用，支持新浪微博、人人网和腾讯微

2015-09-24 09:28:13 525

转载推荐系统- 亚马逊收入占比35%

推荐系统在广告中的推荐系统在电子商务中的推荐有非常好的用法在百度的DSP中用的也非常深入

2015-09-23 14:57:07 2106

转载 cookie mapping

http://blog.csdn.net/sunmenggmail/article/details/8763460dsp在广告主比如京东上放置一个pixel，然后广告主就可以记录浏览京东的用户，听起来很神奇，具体原理是：广告主或者其他网站只要在页面上加这段代码<img src="http://dspXXXX.com?t=nczonline-20&l=as

2015-09-23 12:01:57 382

转载 eCPM

eCPM（effective cost per mille）指的就是每一千次展示可以获得的广告收入，展示的单位可以是网页，广告单元，甚至是单个广告（在 AdSense “高级报告”的“数据展示依据”下拉框中可以选择）。默认情况下，eCPM 指的都是千次网页展示（Pageview）收入。eCPM 只是用来反映网站盈利能力的参数，不代表收入。目录1 定义2 提高

2015-09-23 11:41:00 2184

转载 Φ字母来源

Φ字母来源1.1Φ希腊字母读音，fai（大写Φ，小写φ），是第二十一个希腊字母。希腊小写字母，左上角的弯是开口的；而用作符号时，通常会写作，变了一个缩小了的大写Φ的形状（Unicode: U+03D5）。1.2Φ保加利亚字母读音，F （大写Φ，小写ф），是第二十一个保加利亚语字母。2.1物理学（1）磁通量Φ=BS，单位是韦伯（Wb)。（2）波动的相。（3）电流、电压的相

2015-09-23 11:37:38 1355

转载史上最全的互联网专业词语汇总

http://www.techxue.com/techxue-9877-1.html常常听到有人说 CPM、CPR、o2o、P2P、C2C，你会不会觉得很混乱？那么这些到底是什么意思呢？分享一篇科普文，专业扫盲互联网专业词汇，看看有没有你不知道的词语问题一：最常在媒体以及大牛们口中说的各种X2X指的是什么【电子商务模式】B2B(经济组织对经济组织)B2C(经济组织对消费者)

2015-09-23 10:46:33 3256

原创 hadoop序列化框架

A 默认序列化框架是 Writable接口，缺点：缺乏语言的可移植性B 不使用java Serialization, 缺点：不够精简，用起来非常纠结，无法做到精简，快速，可扩展，支持互操作C Apache Thrift 一般用来作为二进制数据的永久存储格式， Mapreduce格式对该类的支持有限D Google Protocol框架一般用来做二进制数据

2015-09-23 10:26:57 644

转载广告英文术语大全

广告英语术语——创作用语广告讯息advertising message 艺术art 艺术方向art direction 艺术家artist 美术总监art director 大创意big idea 头脑风暴法brainstorming 传播媒介communications media 概念化conceptualization 文案人员copywrite

2015-09-22 19:45:15 5775

转载移动广告的转化率怎么算的？

首先先看是按什么方式计费的。例如cpa按效果计费，cpc按点击计费，cpc按展示计费。一般广告统计的数据是广告请求数、展示数、点击数、效果数。如果是按cpc计费，转化率就是点击率了，点击率=点击数/展示数如果是按cpm计费，那么就看有效展示率，就是展示数/请求数如果是按cpa计费，那么需要看点击到效果这一步的转化，效果数/点击数

2015-09-22 19:37:18 4083

转载 DSP中的基础算法和模型的详细解析

http://www.tuicool.com/articles/ENFBja原文 http://www.adexchanger.cn/tech-company/dsp/4349.html主题算法【小编】发现好文一篇，让大家对DSP中的基础算法和模型有一个初步的了解。（转载请保留原文链接 http://www.techinads.com/arc

2015-09-22 19:33:26 559

转载 hdfs 上面block有异常处理流程

首先向namenode保证已损坏的数据快已经正在尝试读操作的datanode爱抛出checksumException异常namenode将这个数据块标记为已损坏，因此，他不会将处理请求直接发送到这个节点，之后，他安排这个数据块的一个副本复制到另外一个datanode，如此一来，数据块的复制因子又回到了期望水平，最后删除易损坏的数据块。

2015-09-22 17:36:03 655

原创 HDFS文件写入

1、客户端通过DistributedFileSystem对象调用create函数来新建文件2、DistributeFilesystem对namenode创建一个RPC调用，在文件系统的命名空间中新建一个文件，此时文件还没有相应的数据块，但是客户端已经能读取命名空间了，只是长度为null3、namenode执行一些连的检查却熬这个文件不存在，客户端有新建文件的权限4、DFSoutpu

2015-09-22 15:22:33 765

原创 HDFs数据读取过程

1、客户端通过调用FileSystem 对象open方法来打开文件2、DistributedFileSystem通过RPC调用来调用 namenode，确定文件快的起始位置，，namenode返回存有这块副本的datanode地址。3、datanode根据他们与客户端的距离来排序，4、DistributedFileSystem返回一个FSDataInputStream对象一个支持文件定

2015-09-22 14:54:43 720

转载关于广告投放 RTB 模式（实时竞价）的十个问题

http://cn.technode.com/post/2012-07-12/40029510266/RTB（Real Time Bidding），实时竞价，是不同于传统 CPM（按千次展示付费）、CPC（按每次点击付费）的新型互联网广告投放模式。它最大的改变是，不在局限于按照媒体的广告位进行广告投放，而是直接对接到“人”，聚合媒体流量和广告主需求，按照广告主所希望覆盖的人群来进

2015-09-22 10:23:05 3743

转载媒体变现四种方式

1、媒体变现四种方式 A 自己销售，按天出售广告位 B 托管广告联盟比如百度联盟 C cpm出售不太多 D 按天排期制度，排期，排不出去的广告，灵活的接入，收益做统一的优化和管理收益管理，动态接入cpm， rtb，广告联盟，动态查看前三者谁受益最大，就给谁

2015-09-22 09:56:48 573

空空如也

空空如也