MapReduce基础开发之十二ChainMapper和ChainReducer使用

1、需求场景:    过滤无意义的单词后再进行文本词频统计。处理流程是: 1)第一个Map使用无意义单词数组过滤输入流; 2)第二个Map将过滤后的单词加上出现一次的标签; 3)最后Reduce输出词频; MapReduce适合高吞吐高延迟的批处理,对于数据集迭代支持比较弱,唯有这个Ch...

2016-12-27 11:31:29

阅读数 2086

评论数 0

MapReduce基础开发之十一DistributedCache使用

1、需求场景:    过滤无意义的单词后再进行文本词频统计。处理流程是: 1)预定义要过滤的无意义单词保存成文件,保存到HDFS中; 2)程序中将该文件定位为作业的缓存文件,使用DistributedCache类; 3)Map中读入缓存文件,对文件中的单词不做词频统计。 该场景主要解决文...

2016-12-27 10:48:37

阅读数 2119

评论数 0

Java实现数据序列化工具Avro的例子

1、Avro简介 Avro是一个数据序列化的系统。 它可以提供: 1)丰富的数据结构类型 2)快速可压缩的二进制数据形式 3)存储持久数据的文件容器 4)远程过程调用RPC 5)简单的动态语言结合功能,Avro和动态语言结合后,读写数据文件和使用RPC协议都不需要生成代码,而代码生成作为一种可选的...

2016-12-27 10:14:14

阅读数 3835

评论数 0

Centos下机器学习算法Mahout库的安装和示例

1、Mahout简介 Apache Mahout是Apache Software Foundation(ASF)旗下的一个开源项目,提供了一些经典的机器学习算法,旨在帮助开发人员更加方便快捷地创建智能应用程序。 Mahout的主要目标是建立针对大规模数据集可伸缩的机器学习算法,主要包括以下五个...

2016-12-27 09:29:09

阅读数 2154

评论数 0

Java生成CRC16数据校验码

CRC即循环冗余校验码(Cyclic Redundancy Check[1]  ):是数据通信领域中最常用的一种查错校验码,其特征是信息字段和校验字段的长度可以任意选定。循环冗余检查(CRC)是一种数据传输检错功能,对数据进行多项式计算,并将得到的结果附在帧的后面,接收设备也执行类似的算法,以保证...

2016-12-26 11:51:11

阅读数 9081

评论数 3

阅读<A Practical Guide to Support Vector Classification>

看了很多关于SVM的介绍,总觉得隔靴搔痒,不够尽兴,没想到这篇LibSVM官网中的简单说明,倒是说的很透彻,对于理解SVM及其具体应用场合大有裨益。 看来还真的是:能深入浅出说的简单的才是真的到位。简单就是一切。 原文链接:http://www.csie.ntu.edu.tw/~cjlin/p...

2016-12-26 08:39:12

阅读数 2429

评论数 0

Java实现ANN神经网络之BP代码参考

神经网络的计算过程 神经网络结构如下图所示,最左边的是输入层,最右边的是输出层,中间是多个隐含层,隐含层和输出层的每个神经节点,都是由上一层节点乘以其权重累加得到,标上“+1”的圆圈为截距项b,对输入层外每个节点:Y=w0*x0+w1*x1+…+wn*xn+b,由此我们可以知道神经网络相当于...

2016-12-21 17:22:47

阅读数 4549

评论数 2

Java应用梯度下降求解线性SVM模型参考代码

下面的代码是参考网上的,直接执行,主要是为了后续进一步掌握SVM原理而发布。 两个基本原理还是要去掌握:SVM原理和梯度下降法。 1)SVM分类器: 支持向量机,因其英文名为support vector machine,故一般简称SVM,通俗来讲,它是一种二类分类模型,其基本模型定义为特征空...

2016-12-21 16:55:22

阅读数 2593

评论数 0

Java开发SVM之Eclipse集成LibSVM示例

LIBSVM是台湾大学林智仁(Lin Chih-Jen)教授等开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包。 1、官网下载LibSVM    1)官网:http://www.csie.ntu.edu.tw/~cjlin/libsvm/    2)下载:libsvm...

2016-12-21 14:47:53

阅读数 9937

评论数 18

Hadoop多用户作业调度器和安全机制的自我总结

在掌握Hadoop平台上,一直有两个疑问困扰着: 1)Hadoop的用户和用户组和Linux操作系统用户和用户组之间的关系; 2)多用户下,Hadoop平台如何管理以保证作业调度和文件安全; 先说下Hadoop队列管理机制:Hadoop以队列为单位管理作业、用户和资源,集群划分成若干个队列, ...

2016-12-21 11:14:00

阅读数 2865

评论数 0

Java实现余弦定理计算文本相似度

相似度度量(Similarity),即计算个体间的相似程度,相似度度量的值越小,说明个体间相似度越小,相似度的值越大说明个体差异越大。 对于多个不同的文本或者短文本对话消息要来计算他们之间的相似度如何,一个好的做法就是将这些文本中词语,映射到向量空间,形成文本中文字和向量数据的映射关系,通过计算...

2016-12-16 14:49:39

阅读数 10054

评论数 0

模拟浏览器自动化测试工具Selenium之五Centos系统命令行下部署selenium环境试验

一、背景:     Selenium是一个web自动化测试框架,也支持从HTML页面上爬取javascript生成的或AJAX的内容。     selenium2支持通过各种driver(FirfoxDriver、IternetExplorerDriver、OperaDriver、ChromeDr...

2016-12-16 13:04:12

阅读数 4751

评论数 6

模拟浏览器自动化测试工具Selenium之四cssSelector元素定位开发篇

Selenium官网的Document里推荐使用CSS locator,而不是XPath来定位元素,原因是CSS locator比XPath locator速度快,特别是在IE下面(IE没有自己的XPath 解析器(Parser)),比xpath更高效更准确更易编写,缺点是根据页面文字定位时没有x...

2016-12-16 08:47:00

阅读数 6644

评论数 0

Java实现算法导论中最长公共子序列(LCS)动态规划法

1、问题: 求两字符序列的最长公共字符子序列LCS 2、求解:动态规划法                      动态规划的思路就是用一个矩阵来记录两个字符串中所有位置的两个字符之间的匹配情况,若是匹配则为1,否则为0。然后求出对角线最长的1序列,其对应的位置就是最长匹配子串的位置。如下表: ...

2016-12-15 17:49:42

阅读数 3687

评论数 0

Java反射机制和动态代理实例

反射机制是Java语言的一个重要特性,允许用户动态获取类的信息和动态调用对象的方法。 通过给定类的名字,通过反射机制就可以获取类的所有信息。 JAVA反射机制是在运行状态中,对于任意一个类,都能够知道这个类的所有属性和方法;对于任意一个对象,都能够调用它的任意一个方法;这种动态获取的信息以及动...

2016-12-09 09:19:21

阅读数 1966

评论数 0

Java实现算法导论中最近点对问题分治法

最近点对问题:给定平面上的N个点,找出距离最近的两个点。分治法:              1 )如果数组长度(即点的个数,一般≤3)在一定范围内时直接求出最近点,蛮力求解,递归退出条件;              2)求出这些点的X坐标的中位数mid              3)以mid...

2016-12-07 10:38:19

阅读数 4924

评论数 0

Java实现算法导论中凸包问题Jarvis步进法

对于凸包的理解,参考http://www.cnblogs.com/Booble/archive/2011/02/28/1967179.html,说的还是比较深入浅出。 凸包问题的Jarvis步进法,其算法流程: 1.找横坐标最小的点(有一样的话纵坐标更小的) 2.从这点开始卷包裹  找最靠近...

2016-12-07 10:00:41

阅读数 3113

评论数 0

算法导论之计算几何学

计算几何学是计算机科学的一个分支,专门研究集合问题的解决的算法。计算几何学的问题一般输入关于一组集合对象的描述,如一组点、一组线段;输出是对问题的回答,如直线是否相交。三维空间和高维空间很难视觉化,这里计算几何学主要基于二维平面,输入对象用一组点1,p2,p3,…>来表示,其中每个pi=(x...

2016-12-07 09:33:36

阅读数 3595

评论数 0

Java实现算法导论中KMP字符串匹配算法

"前缀"和"后缀"。 "前缀"指除了最后一个字符以外,一个字符串的全部头部组合;"后缀"指除了第一个字符以外,一个字符串的全部尾部组合。 "部分匹配"的实质是,有时候,字符串头部和尾部会有...

2016-12-06 15:17:02

阅读数 2076

评论数 0

算法导论之字符串匹配

当然对于前缀函数π一定可以起到有效位移的判断,导论还是给了证明。这里就说明其证明依据和结论。 前缀函数迭代引理:设P是长度为m的模式,其前缀函数为π,对q=1,2…,m,有π*[q]= {k:k 设P是长度为m的模式,π是P的前缀函数,对q=1,2…,m,如果π[q]>0,则π[q]-1...

2016-12-06 14:26:14

阅读数 2063

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭