2014年10月_数据娃掘

12月 11月 10月 09月 08月 07月

转载 Hadoop源码解析之: TextInputFormat如何处理跨split的行

我们知道hadoop将数据给到map进行处理前会使用InputFormat对数据进行两方面的预处理：对输入数据进行切分，生成一组split，一个split会分发给一个mapper进行处理。针对每个split，再创建一个RecordReader读取Split内的数据，并按照的形式组织成一条record传给map函数进行处理。最常见的FormatInput就是TextInpu

2014-10-24 15:49:09 567

转载 Java并发编程总结(Hadoop核心源码实例解读)

程序设计需要同步(synchronization),原因：1）复杂的功能要求的需要使用多线程编程，线程之间存在读写共享变量。2）读写共享变量(shared mutual variable),JVM的内存模型(Memory model: decide when and how changes made by one thread become visuble to others)受到其它因素

2014-10-24 15:27:32 831

转载 bash下快速移动光标的快捷键

在命令行上快速移动光标的快捷方法

2014-10-24 14:55:11 4527

原创如何让Hadoop读取以gz结尾的文本格式的文件

背景：搜索引擎在build全量时，会产生数G的xml的中间文件，我需要去查询这些中间文件中，是否有某个特殊的字符。xml文件有很多，每个都有几百M，存储在hdfs上，而且是以gz结尾的文本格式的文件。查找时，我是写了一个实现Tool接口，继承自Configured类的MapReduce，这样就可以传入自定义的参数给我的MapReduce程序了。需要在文件里Grep的内容，就是以参数的形式传

2014-10-24 14:34:09 6561

原创 mahout个性化推荐的一些帖子

Mahout协同推荐简单实例...

2014-10-10 09:53:42 932

转载 Apache Mahout 实现的机器学习算法

Mahout实现的机器学习算法集... 算法大类算法名称中文名称分类算法Logistic Regression逻辑回归 Bayesian贝叶斯 SVM支持向量机 Perceptron

2014-10-10 09:51:26 822

转载分布式消息队列（Message Queue）系统：kafka扫盲

分布式系统很重要的一个设计原则是松耦合，即尽量减少子系统间的依赖。这样各个子系统可以相互独立的进行演进，维护，重用等。Message Queue （MQ）是一种很好的解耦手段。要了解MQ在系统整合中的作用，可以看Enterprise Integration Patterns （EIP）这本书或对应的网站。

2014-10-01 12:01:12 2852

原创虚拟机使用NAT方式连网

详细说下NAT配置过程NAT全称Network Address Translation网络地址转换，顾名思义，配置的重点也是地址转换。步骤1、配置局域网段及网关打开vmware的visual network editor，设置成下图样式：图示说明1)采用nat方式要配置VMnet8，这个虚拟网卡是专用nat方式连网的，其他网卡不管。2)其中2中的102字段可以任意选择，

2014-10-01 11:59:05 820

转载搭建kafka运行环境

由于项目涉及到kafka，自己以前没有接触过这方面的，学习了下，将搭建kafka运行环境同大家分享。

2014-10-01 11:49:40 2623

原创消息订阅发布系统Apache Kafka分布式集群环境搭建和简单测试

kafka是LinkedIn开发并开源的一个分布式MQ系统，现在是Apache的一个孵化项目。在它的主页描述kafka为一个高吞吐量的分布式（能将消息分散到不同的节点上）MQ。Kafka仅仅由7000行Scala编写，据了解，Kafka每秒可以生产约25万消息（50 MB），每秒处理55万消息（110 MB）...

2014-10-01 11:46:04 871

Ubuntu14下安装TP-LINK 无线网卡驱动-shell安装包版本

Ubuntu14下安装TP-LINK TL-WN823N无线网卡驱动程序。具体渠道程序，Realtek-RTL8192EU-driver.tar.gz

2017-05-09

tensorflow开发手册_1.0版（中文）, 2.0版（英文）

tensorflow开发手册_1.0版（中文）_201608； tensorflow开发手册_2.0版（英文）_201705；

2017-05-07

TP-LINK TL-WN823N chipset (0bda:818b) Ubuntu驱动程序

迷你型无线USB网卡，TP-LINK，TL-WN823N，Ubuntu驱动 Bus 003 Device 002: ID 0bda:818b Realtek Semiconductor Corp

2017-05-06

SpringMvc_RestfullAPI

使用SpringMvc开发的RestfullAPI，完整demo，可以直接利用。

2015-11-11

数据挖掘比赛入门_2015

这个是数据挖掘比赛的专业知识技巧整理的文档，是以去年阿里天猫推荐比赛为例，希望能对大家有帮助。

2015-11-11

计算机网络(第4版)课后习题答案

《计算机网络（第4版）》是2011年出版的图书，作者是Andrew S.Tanenbaum。计算机网络第四版习题答案(中文版).

2015-11-11

fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。主要特点：快速FAST (比其它任何基于Java的解析器和生成器更快，包括jackson）强大（支持普通JDK类包括任意Java Bean Class、Collection、Map、Date或enum）零依赖（没有依赖其它任何类库除了JDK）示例代码： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 import com.alibaba.fastjson.JSON; Group group = new Group(); group.setId(0L); group.setName("admin"); User guestUser = new User(); guestUser.setId(2L); guestUser.setName("guest"); User rootUser = new User(); rootUser.setId(3L); rootUser.setName("root"); group.getUsers().add(guestUser); group.getUsers().add(rootUser); String jsonString = JSON.toJSONString(group); System.out.println(jsonString);

2015-11-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

技术博客

转载 Hadoop源码解析之: TextInputFormat如何处理跨split的行

转载 Java并发编程总结(Hadoop核心源码实例解读)

转载 bash下快速移动光标的快捷键

原创如何让Hadoop读取以gz结尾的文本格式的文件

原创 mahout个性化推荐的一些帖子

转载 Apache Mahout 实现的机器学习算法

原创基于ZooKeeper的分布式Session实现

转载分布式消息队列（Message Queue）系统：kafka扫盲

原创虚拟机使用NAT方式连网

转载搭建kafka运行环境

原创消息订阅发布系统Apache Kafka分布式集群环境搭建和简单测试

下载最新简体中文停用词表 stopwords.txt

Ubuntu14下安装TP-LINK 无线网卡驱动-shell安装包版本

Ubuntu14+CUDA8.0+cudnn傻瓜式安装手册

tensorflow开发手册_1.0版（中文）, 2.0版（英文）

TP-LINK TL-WN823N chipset (0bda:818b) Ubuntu驱动程序

SpringMvc_RestfullAPI

数据挖掘比赛入门_2015

电子商务系统分析与设计(第2版)课件PPT

计算机网络(第4版)课后习题答案

fastjson-1.1.36.jar

msysGit安装包下载

apache-maven-2.2.1

hadoop-eclipse-plugin-1.1.2.jar

apache-flume-1.4.0.tar.gz

apache-ant-1.9.1-bin.zip

ZendOptimizer-3.3.3-Windows-i386.zip

iisxp-v5.1.zip

mysqlcc-0.9.4-win32.zip

如何在vs2008中添加lib 静态库使用

6个简单而有用的VBA自定义函数

空空如也

下载 最新简体中文停用词表 stopwords.txt

Ubuntu14下安装TP-LINK 无线网卡驱动-shell安装包版本

Ubuntu14+CUDA8.0+cudnn傻瓜式安装手册

tensorflow开发手册_1.0版（中文）, 2.0版（英文）

TP-LINK TL-WN823N chipset (0bda:818b) Ubuntu驱动程序

SpringMvc_RestfullAPI

数据挖掘比赛入门_2015

电子商务系统分析与设计(第2版)课件PPT

计算机网络(第4版)课后习题答案

fastjson-1.1.36.jar

msysGit安装包下载

apache-maven-2.2.1

hadoop-eclipse-plugin-1.1.2.jar

apache-flume-1.4.0.tar.gz

apache-ant-1.9.1-bin.zip

ZendOptimizer-3.3.3-Windows-i386.zip

iisxp-v5.1.zip

mysqlcc-0.9.4-win32.zip

如何在vs2008中添加lib 静态库使用

6个简单而有用的VBA自定义函数

空空如也

下载最新简体中文停用词表 stopwords.txt