关闭

Hadoop 中文编码相关问题 -- mapreduce程序处理GBK编码数据并输出GBK编码数据

最近些统计程序时,使用了原生的java hadoop,以前使用streaming 模式, 用awk脚本写时,没有遇到编码问题,原生的java hadoop程序,在处理gb18030格式log时,当输出内容时,出现乱码。解决方法见下文(转自http://blog.csdn.net/zklth/article/details/11829563) -------------------------- ...
阅读(311) 评论(0)

Hadoop中Combiner的使用

转自:http://blog.csdn.net/ipolaris/article/details/8723782 在MapReduce中,当map生成的数据过大时,带宽就成了瓶颈,怎样精简压缩传给Reduce的数据,有不影响最终的结果呢。有一种方法就是使用Combiner,Combiner号称本地的Reduce,Reduce最终的输入,是Combiner的输出。下面以《Hadoop in a...
阅读(156) 评论(0)

GBK与unicode转换

最近写unicode分词时,需要处理GBK输入,用到GBK与Unicode之间的转换 转自http://www.latelee.org/programming-under-linux/gbk-to-unicode-table.html ----------------------------------------------------------------------------...
阅读(197) 评论(0)

【C++】使用libxml解析XML文件

OpenCV中使用FileStorage创建和解析XML文件。但FileStorage不能处理节点为空的情况,且对属性也不友好。例子见这里。 libxml是C接口的处理xml文件的开源代码库。可以在这里下载。 对于一段如下的xml文件: [html] view plain copy   xml version="1.0"?>   Message...
阅读(341) 评论(0)

C++11:POD数据类型

啥是POD类型? POD全称Plain Old Data。通俗的讲,一个类或结构体通过二进制拷贝后还能保持其数据不变,那么它就是一个POD类型。 平凡的定义 1.有平凡的构造函数 2.有平凡的拷贝构造函数 3.有平凡的移动构造函数 4.有平凡的拷贝赋值运算符 5.有平凡的移动赋值运算符 6.有平凡的析构函数 7.不能包含虚函数 ...
阅读(155) 评论(0)

玩转Google开源C++单元测试框架Google Test系列(gtest)之六 - 运行参数

转自http://www.cnblogs.com/coderzh/archive/2009/04/10/1432789.html 一、前言 使用gtest编写的测试案例通常本身就是一个可执行文件,因此运行起来非常方便。同时,gtest也为我们提供了一系列的运行参数(环境变量、命令行参数或代码里指定),使得我们可以对案例的执行进行一些有效的控制。 二、基本介绍 前面提到,...
阅读(208) 评论(0)

Linux动态加载动态链接库

函数 描述 #include头文件定义如下四个函数 dlopen 使对象文件可被程序访问 dlsym   获取执行了 dlopen 函数的对象文件中的符号的地址 dlerror  返回上一次出现错误的字符串错误 dlclose 关闭目标文件     dlopen函数返回一个句柄,该句柄用于后续的 API 调用。 dlopen的原型为:#include voi...
阅读(151) 评论(0)

shell中test命令用法详解

test命令用法。功能:检查文件和比较值   1)判断表达式   if test  (表达式为真)   if test !表达式为假   test 表达式1 –a 表达式2                  两个表达式都为真   test 表达式1 –o 表达式2                 两个表达式有一个为真   2)判断字符串   test ...
阅读(179) 评论(0)

hadoop相关优化参数

hadoop为用户作业提供了多种可配置的参数,以允许用户根据作业特点调整这些值 使作业运行效率达到最优。 程序编写规范 (1)设置Combiner 如果是一大批MR程序,如果可以设置一个Combiner,Combiner可减少Map Task中间输出结果,从而减少各个Reduce Task的远程拷贝数据 量,最终表现为Map Task和Reduce Task执行时间缩短。...
阅读(457) 评论(0)

如何在hadoop中控制map的个数

hadooop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数,并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值,最终map的个数,还取决于其他的因素。      为了方便介绍,先来看几个名词: block_size : hdfs的文件块大小,默认为64M,可以通过参...
阅读(191) 评论(0)

cgi与fastcgi的理解

当我们在谈到cgi的时候,我们在讨论什么 最早的Web服务器简单地响应浏览器发来的HTTP请求,并将存储在服务器上的HTML文件返回给浏览器,也就是静态html。事物总是不断发展,网站也越来越复杂,所以出现动态技术。但是服务器并不能直接运行php,asp这样的文件,自己不能做,外包给别人吧,但是要与第三做个约定,我给你什么,然后你给我什么,就是握把请求参数发送给你,然后我接收你的处理结果...
阅读(219) 评论(0)

使用C++标准库sort自定义比较函数导致死循环问题

永远让比较函数对相等的值返回false(来自Effective C++) --------------------------------------------------------------------------------------------------------- 转自http://www.cnblogs.com/yuanzz/p/3735213.html ...
阅读(713) 评论(0)

rsync error: protocol incompatibility / mismatch ?

1、问题 今日在维护集群环境的时候,遇到了一个小问题,rsync 向集群中的机器传输文件的时候报错: protocol version mismatch -- is your shell clean? (see the rsync man page for an explanation) rsync error: protocol incompatibility (code 2) at c...
阅读(412) 评论(0)

机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用

http://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html 版权声明:     本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com ...
阅读(397) 评论(0)

gcc #pragma pack c++模板template

gcc4.4.7下编译如下,不知为什么对模板的对齐控制不起效果,遂搜了点对模板的对齐控制相关的 #include #pragma pack(2) template class a{ private:         id_type x;         unsigned short y; }; class b{ private:         int x;...
阅读(456) 评论(0)
243条 共17页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:306131次
    • 积分:4547
    • 等级:
    • 排名:第6784名
    • 原创:101篇
    • 转载:142篇
    • 译文:0篇
    • 评论:136条
    博客专栏
    CSDN英雄会题解
    友情链接
    最新评论