- 博客(11)
- 资源 (22)
- 收藏
- 关注
转载 Hadoop源码解析之: TextInputFormat如何处理跨split的行
我们知道hadoop将数据给到map进行处理前会使用InputFormat对数据进行两方面的预处理: 对输入数据进行切分,生成一组split,一个split会分发给一个mapper进行处理。 针对每个split,再创建一个RecordReader读取Split内的数据,并按照的形式组织成一条record传给map函数进行处理。最常见的FormatInput就是TextInpu
2014-10-24 15:49:09 567
转载 Java并发编程总结(Hadoop核心源码实例解读)
程序设计需要同步(synchronization),原因:1)复杂的功能要求的需要使用多线程编程,线程之间存在读写共享变量。2)读写共享变量(shared mutual variable),JVM的内存模型(Memory model: decide when and how changes made by one thread become visuble to others)受到其它因素
2014-10-24 15:27:32 831
原创 如何让Hadoop读取以gz结尾的文本格式的文件
背景:搜索引擎在build全量时,会产生数G的xml的中间文件,我需要去查询这些中间文件中,是否有某个特殊的字符。xml文件有很多,每个都有几百M,存储在hdfs上,而且是以gz结尾的文本格式的文件。查找时,我是写了一个实现Tool接口,继承自Configured类的MapReduce,这样就可以传入自定义的参数给我的MapReduce程序了。需要在文件里Grep的内容,就是以参数的形式传
2014-10-24 14:34:09 6561
转载 Apache Mahout 实现的机器学习算法
Mahout实现的机器学习算法集... 算法大类算法名称中文名称分类算法Logistic Regression逻辑回归 Bayesian贝叶斯 SVM支持向量机 Perceptron
2014-10-10 09:51:26 822
转载 分布式消息队列(Message Queue)系统:kafka扫盲
分布式系统很重要的一个设计原则是松耦合,即尽量减少子系统间的依赖。这样各个子系统可以相互独立的进行演进,维护,重用等。Message Queue (MQ)是一种很好的解耦手段。要了解MQ在系统整合中的作用,可以看Enterprise Integration Patterns (EIP)这本书或对应的网站。
2014-10-01 12:01:12 2852
原创 虚拟机使用NAT方式连网
详细说下NAT配置过程NAT全称Network Address Translation网络地址转换,顾名思义,配置的重点也是地址转换。步骤1、配置局域网段及网关打开vmware的visual network editor,设置成下图样式:图示说明1)采用nat方式要配置VMnet8,这个虚拟网卡是专用nat方式连网的,其他网卡不管。2)其中2中的102字段可以任意选择,
2014-10-01 11:59:05 820
原创 消息订阅发布系统Apache Kafka分布式集群环境搭建和简单测试
kafka是LinkedIn开发并开源的一个分布式MQ系统,现在是Apache的一个孵化项目。在它的主页描述kafka为一个高吞吐量的分布式(能将消息分散到不同的节点上)MQ。Kafka仅仅由7000行Scala编写,据了解,Kafka每秒可以生产约25万消息(50 MB),每秒处理55万消息(110 MB)...
2014-10-01 11:46:04 871
Ubuntu14下安装TP-LINK 无线网卡驱动-shell安装包版本
2017-05-09
tensorflow开发手册_1.0版(中文), 2.0版(英文)
2017-05-07
TP-LINK TL-WN823N chipset (0bda:818b) Ubuntu驱动程序
2017-05-06
fastjson-1.1.36.jar
2015-11-11
msysGit安装包下载
2015-04-10
hadoop-eclipse-plugin-1.1.2.jar
2014-09-01
apache-flume-1.4.0.tar.gz
2014-08-31
apache-ant-1.9.1-bin.zip
2014-08-31
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人