认真阅读hadoop源码

从新复习hadoop,认真阅读hadoop源码,有兴趣的朋友可以加我:282215036

2012-11-01 16:00:17

阅读数:18

评论数:0

awk平时使用心得

1、cat exe1 | awk '{a[$1]+=$2}END{for(i in a) print i,a[i]}' aaa 6bbb 2ccc 4 2、awk '{a[$0]++}END{l=asorti(a);for(i=1;i<l;i++)print a[i]}'...

2012-07-09 17:49:31

阅读数:15

评论数:0

Java并发编程总结---Hadoop核心源码实例解读

程序设计需要同步(synchronization),原因:1)复杂的功能要求的需要使用多线程编程,线程之间存在读写共享变量。2)读写共享变量(shared mutual variable),JVM的内存模型(Memory model: decide when and how changes mad...

2012-04-01 15:46:11

阅读数:15

评论数:0

铁道部售票网站怎么啦?

乐淘CTO李勇:库存同步是难点   我的判断,除了一般的优化之外,最大的难点应该是库存同步问题。推测应该有一个全国唯一的核心库,负责维护所有车次所有座位的票务状态,完成库存查询、锁定、出入库操作。之前只是对内部的各售票点开放(估计有几万个),波动小的情况。突然对公众开放就出问题了,会达...

2012-01-10 10:25:05

阅读数:8

评论数:0

eclipse启动报错jvm terminated. Exit code=1

  转载链接:   http://wxmfly.iteye.com/blog/233421

2011-10-11 08:55:28

阅读数:13

评论数:0

做有气质的男人

这里提到男人应该具有的一些品质吧,偶然看到的,觉得说得有道理(尽管没做到的还很多),忍不住转一下。一:沉稳(1)不要随便显露你的情绪。(2)不要逢人就诉说你的困难和遭遇。(3)在征询别人的意见之前,自己先思考,但不要先讲。(4)不要一有机会就唠叨你的不满。(5)重要的决定尽量有别人商量,最好隔一天...

2011-09-29 09:39:25

阅读数:24

评论数:0

加油啦!

8月18日入职搜狐,负责汽车事业部数据。看来压力不小啊,加油干吧!

2011-09-22 16:02:19

阅读数:11

评论数:0

ireport中获取当前时间

一。 iReport 中获取系统当前时间 1,选择TextField类型为 java.util.Date 2,在pattern中 点       在Date中选择你要的日期格式如下图   3,在TextField Expression中写 java.util.Calendar.ge...

2011-08-28 11:53:39

阅读数:12

评论数:0

ireport引java bean database

今天帮一同事调试程序,他们的报表工具用的是ireport4.0.2,在使用java bean 作为数据源时一直没找到,原因很简单:就是没找对所编译的class 路径。如果使用的eclipse来编译的话,一般class文件都放在项目/bin/class   下面截一个图:   最下面的一...

2011-08-27 10:38:37

阅读数:14

评论数:0

知足最好

钱多钱少,够吃就好。人丑人美,顺眼就好。人老人少,健康就好。家穷家富,和气就好。老公晚归,回来就好。老婆唠叨,顾家就好。孩子从小,就要教好。博士也好,卖菜也好。长大以后,心安就好。房屋大小,能住就好。名不名牌,能穿就好。两轮四轮,能驾就好。老板不好,能忍就好。一切烦恼,能解就好。坚持执着,放下最好...

2011-08-25 10:50:15

阅读数:9

评论数:0

几个比较重要的句子

1.说话要用脑子,做事慎言,话多无益.讲话不要只顾一时痛快.信口开河,以为人家给你笑脸就是欣赏,没完没了的把掏心窝子的话都讲出来,结果让人家彻底摸清了家底.还偷笑你. 2.遇事不要急于下结论,即便有了答案也要等等,也许有更好的解决方式,站在不同的角度就有不同答案,要学会换位思维. 3.对小人一...

2011-08-25 10:49:39

阅读数:14

评论数:0

使用hadoop的lzo问题!

使用lzo压缩替换hadoop原始的Gzip压缩。相比之下有如下特点:我们这使用的是hadoop客户端。1.压缩解压的速度很快2.lzo压缩是基于block分块的。这样,一个大文件(在hadoop上可能会占用多个block),就可以有多个 MapReduce并行来进行处理。虽然Lzo的压缩比没有G...

2011-08-24 17:12:28

阅读数:11

评论数:0

hive中partition如何使用

网上有篇关于hive的partition的使用讲解的比较好,转载了: 一、背景 1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。 2、分区表指的是在创建表时指定的partiti...

2011-08-23 23:35:38

阅读数:16

评论数:0

hive中配置使用derby.

hive-default.xml<property>  <name>javax.jdo.option.ConnectionURL</name>  &l...

2011-08-23 23:20:56

阅读数:17

评论数:0

hive中UDF和UDAF使用说明

Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。 一、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括: a)文件格式:T...

2011-08-23 23:04:54

阅读数:15

评论数:0

hive的distribute by应用

hive中的distribute by是控制在map端如何拆分数据给reduce端的。hive会根据distribute by后面列,根据reduce的个数进行数据分发,默认是采用hash算法。 对于distribute by进行测试,一定要分配多reduce进行处理,否则无法看到distrib...

2011-08-23 17:08:59

阅读数:12

评论数:0

hive的sort by应用

在hive中不光有order by操作,还有个sort by操作。两者执行的都是排序的操作,但有存在很大的不同。还是用上次order by的例子来说明。 测试用例hive> select * from test09;OK100 tom200 mary300 kate400 ...

2011-08-23 17:02:38

阅读数:12

评论数:0

hive的order by应用

hive中的order by也是对一个结果集合进行排序,但是和关系型数据库又所有不同。这不同的地方也是两者在底层架构区别的体现。 hive的参数hive.mapred.mode是控制hive执行mapred的方式的,有两个选项:strict和nonstrict,默认值是nonstrict。这个两...

2011-08-23 16:56:41

阅读数:14

评论数:0

solr是如何存储索引的

我发现一直理解错了,我一直以为分布式索引和分布式搜索是两个不同的事情,其实是一样的.把索引分布在多台计算机上,不就是正好实现了分布式搜索吗?既然索引已经分布式存储了,,因为搜索就是基于索引的,那搜索就自然是分布式的啦。.前面看网上一些理解,一直以为分布式索 引和分布式搜索是两个独立分开的过程,不知...

2011-08-15 22:43:20

阅读数:15

评论数:0

谈谈爬虫的设计

网络蜘蛛现在开源的已经有好几个了,Larbin,Nutch,Heritrix都各有用户之地,要做一个自己的爬虫要解决好多个问题,比如调度算法、更新策略、分布式存储等,我们来一一看一下。一个爬虫要做的事主要有以下这些 从一个网页入口,分析链接,一层一层的遍历,或者从一组网页入口,或者从一个rss源...

2011-08-07 22:27:43

阅读数:14

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭