自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

技术博客

技术总结和分享

  • 博客(11)
  • 资源 (22)
  • 收藏
  • 关注

转载 Hadoop源码解析之: TextInputFormat如何处理跨split的行

我们知道hadoop将数据给到map进行处理前会使用InputFormat对数据进行两方面的预处理: 对输入数据进行切分,生成一组split,一个split会分发给一个mapper进行处理。  针对每个split,再创建一个RecordReader读取Split内的数据,并按照的形式组织成一条record传给map函数进行处理。最常见的FormatInput就是TextInpu

2014-10-24 15:49:09 567

转载 Java并发编程总结(Hadoop核心源码实例解读)

程序设计需要同步(synchronization),原因:1)复杂的功能要求的需要使用多线程编程,线程之间存在读写共享变量。2)读写共享变量(shared mutual variable),JVM的内存模型(Memory model: decide when and how changes made by one thread become visuble to others)受到其它因素

2014-10-24 15:27:32 831

转载 bash下快速移动光标的快捷键

在命令行上快速移动光标的快捷方法

2014-10-24 14:55:11 4527

原创 如何让Hadoop读取以gz结尾的文本格式的文件

背景:搜索引擎在build全量时,会产生数G的xml的中间文件,我需要去查询这些中间文件中,是否有某个特殊的字符。xml文件有很多,每个都有几百M,存储在hdfs上,而且是以gz结尾的文本格式的文件。查找时,我是写了一个实现Tool接口,继承自Configured类的MapReduce,这样就可以传入自定义的参数给我的MapReduce程序了。需要在文件里Grep的内容,就是以参数的形式传

2014-10-24 14:34:09 6561

原创 mahout个性化推荐的一些帖子

Mahout协同推荐简单实例...

2014-10-10 09:53:42 932

转载 Apache Mahout 实现的机器学习算法

Mahout实现的机器学习算法集... 算法大类算法名称中文名称分类算法Logistic Regression逻辑回归 Bayesian贝叶斯 SVM支持向量机 Perceptron

2014-10-10 09:51:26 822

原创 基于ZooKeeper的分布式Session实现

认识ZooKeeper...

2014-10-01 12:15:49 632

转载 分布式消息队列(Message Queue)系统:kafka扫盲

分布式系统很重要的一个设计原则是松耦合,即尽量减少子系统间的依赖。这样各个子系统可以相互独立的进行演进,维护,重用等。Message Queue (MQ)是一种很好的解耦手段。要了解MQ在系统整合中的作用,可以看Enterprise Integration Patterns (EIP)这本书或对应的网站。

2014-10-01 12:01:12 2852

原创 虚拟机使用NAT方式连网

详细说下NAT配置过程NAT全称Network Address Translation网络地址转换,顾名思义,配置的重点也是地址转换。步骤1、配置局域网段及网关打开vmware的visual network editor,设置成下图样式:图示说明1)采用nat方式要配置VMnet8,这个虚拟网卡是专用nat方式连网的,其他网卡不管。2)其中2中的102字段可以任意选择,

2014-10-01 11:59:05 820

转载 搭建kafka运行环境

由于项目涉及到kafka,自己以前没有接触过这方面的,学习了下,将搭建kafka运行环境同大家分享。

2014-10-01 11:49:40 2623

原创 消息订阅发布系统Apache Kafka分布式集群环境搭建和简单测试

kafka是LinkedIn开发并开源的一个分布式MQ系统,现在是Apache的一个孵化项目。在它的主页描述kafka为一个高吞吐量的分布式(能将消息分散到不同的节点上)MQ。Kafka仅仅由7000行Scala编写,据了解,Kafka每秒可以生产约25万消息(50 MB),每秒处理55万消息(110 MB)...

2014-10-01 11:46:04 871

下载 最新简体中文停用词表 stopwords.txt

最新简体中文常见停用词表:stopwords.txt

2017-05-16

Ubuntu14下安装TP-LINK 无线网卡驱动-shell安装包版本

Ubuntu14下安装TP-LINK TL-WN823N无线网卡驱动程序。 具体渠道程序,Realtek-RTL8192EU-driver.tar.gz

2017-05-09

Ubuntu14+CUDA8.0+cudnn傻瓜式安装手册

Ubuntu14+CUDA8.0+cudnn傻瓜式安装手册

2017-05-07

tensorflow开发手册_1.0版(中文), 2.0版(英文)

tensorflow开发手册_1.0版(中文)_201608; tensorflow开发手册_2.0版(英文)_201705;

2017-05-07

TP-LINK TL-WN823N chipset (0bda:818b) Ubuntu驱动程序

迷你型无线USB网卡,TP-LINK,TL-WN823N,Ubuntu驱动 Bus 003 Device 002: ID 0bda:818b Realtek Semiconductor Corp

2017-05-06

SpringMvc_RestfullAPI

使用SpringMvc开发的RestfullAPI,完整demo,可以直接利用。

2015-11-11

数据挖掘比赛入门_2015

这个是数据挖掘比赛的专业知识技巧整理的文档,是以去年阿里天猫推荐比赛为例,希望能对大家有帮助。

2015-11-11

电子商务系统分析与设计(第2版)课件PPT

电子商务系统分析与设计(第二版)的课件PPT文档。

2015-11-11

计算机网络(第4版)课后习题答案

《计算机网络(第4版)》是2011年出版的图书,作者是Andrew S.Tanenbaum。 计算机网络第四版习题答案(中文版).

2015-11-11

fastjson-1.1.36.jar

fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器,来自阿里巴巴的工程师开发。 主要特点: 快速FAST (比其它任何基于Java的解析器和生成器更快,包括jackson) 强大(支持普通JDK类包括任意Java Bean Class、Collection、Map、Date或enum) 零依赖(没有依赖其它任何类库除了JDK) 示例代码: ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 import com.alibaba.fastjson.JSON; Group group = new Group(); group.setId(0L); group.setName("admin"); User guestUser = new User(); guestUser.setId(2L); guestUser.setName("guest"); User rootUser = new User(); rootUser.setId(3L); rootUser.setName("root"); group.getUsers().add(guestUser); group.getUsers().add(rootUser); String jsonString = JSON.toJSONString(group); System.out.println(jsonString);

2015-11-11

msysGit安装包下载

msysGit管理工具,它提供了类似linux的终端命令的方式,管理git。 也可以在网址:http://msysgit.github.io/ 中下载,但访问改网站会很慢,下载也会经常中断。

2015-04-10

apache-maven-2.2.1

apache-maven-2.2.1 下载

2014-12-14

hadoop-eclipse-plugin-1.1.2.jar

本jar在hadoop1.1.2伪分布式配置成功,然后直接放到eclipse hadoop开发环境就可以使用了。 已经验证在CentOS环境下和ubuntu环境下均ok,可以直接使用。

2014-09-01

apache-flume-1.4.0.tar.gz

Flume 是一个分布式、可靠和高可用的服务,用于收集、聚合以及移动大量日志数据,使用一个简单灵活的架构,就流数据模型。这是一个可靠、容错的服务。

2014-08-31

apache-ant-1.9.1-bin.zip

ANT做JAVA开发时的build.xml,相信大家都记得,要用这个运行 本资料共包含以下附件: apache-ant-1.9.1-bin.tar.gz apache-ant-1.9.1-bin.tar.gz 和 apache-ant-1.9.3-bin.tar.gz 几乎没有差别,对正常编译开发时时使用没有区别。

2014-08-31

ZendOptimizer-3.3.3-Windows-i386.zip

Win+IIS环境下安装PHP+mysql时要使用到,主要是解决性能。

2014-03-17

iisxp-v5.1.zip

win + IIS。 ghost版本的xp需要按照此文件。

2014-03-17

mysqlcc-0.9.4-win32.zip

MySQL Control Center ( mysqlcc-0.9.4-win32.zip ) -- 管理工具

2014-03-17

如何在vs2008中添加lib 静态库使用

如何在vs2008中添加lib 静态库使用. 如何在vs2008中添加lib 静态库使用.

2011-09-02

6个简单而有用的VBA自定义函数

VBA自定义函数. 6个简单而有用的VBA自定义函数.

2011-09-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除