关闭

基于LR的新闻多分类(基于spark2.1.0, 附完整代码)

自从引进DataFrame之后,spark在ml方面,开始使用DataFrame作为RDD的上层封装,以屏蔽RDD层次的复杂操作,对应用开发者提供简单的DataFrame,以减少开发量。本文以最新的spark2.1.0版本为基础,构建从数据预处理、特征转换、模型训练、数据测试到模型评估的一整套处理流程。...
阅读(1621) 评论(0)

JUnit简单使用教程

JUnit简介 JUnit是由 Erich Gamma和Kent Beck编写的一个回归测试框架(regression testing framework)。JUnit测试是程序员测试,即所谓白盒测试,因为程序员知道被测试的软件如何(How)完成功能和完成什么样(What)的功能。 简单编写单元测试实例 public class JunitAnnotation {...
阅读(306) 评论(0)

Hadoop HA——namenode无法启动问题解决

 今天按照之前《Hadoop2.6.0 + zookeeper集群环境搭建 》一文重新搭建了Hadoop2.7.2+zookeeper的HA,实现namenode挂掉后可以自动切换,总体来说还算比较顺利。搭建完成后一切正常!但是!第二天重新启动集群的时候出现问题:两个namenode有一个始终启动不了!,具体问题描述如下: 问题描述 HA按照规划配置好,启动后,NameNod...
阅读(1904) 评论(0)

[Spark2.0]ML 调优:模型选择和超参数调优

本节讲述如何使用MLlib提供的工具来对ML算法和Pipline进行调优。内建的交叉验证和其他工具允许用户在算法和Pipline中优化超参数。     模型选择(又名 超参数调优)         在ML中一个重要的任务就是模型选择,或者使用给定的数据为给定的任务寻找最适合的模型或参数。这也叫做 调优。调优可以是对单个的Estimator,比如LogisticRegression,或...
阅读(1436) 评论(0)

[Spark2.0]ML piplines管道模式

在本部分,我们将介绍ML Pipline的概念。ML Pipline提供了一整套建立在DataFrame上的高级API,它能帮助用户创建和调优实际机器学习管道。 Pipline的主要思想        Mllib标准化了机器学习算法的API,使得将多个算法融合到一个简单的管道或工作流更为简单。本部分将覆盖Pipline API的关键思想,这里的pipline概念是受scikit...
阅读(1584) 评论(0)

[Spark2.0]Spark SQL, DataFrames 和Datasets指南

综述         Spark SQL是Spark提供的针对结构化数据处理的模块。不同于基本的Spark RDD API,SparkSQL提供的接口提供了更多的关于数据和计算执行的信息。在内部,SparkSQL使用这些额外信息完成额外的优化。这里有几种方式可以和SparkSQL相互操作,包括SQL和Dataset API。计算结果的时候使用相同的执行          本页中所有示例使...
阅读(3394) 评论(0)

梯度下降法及其Python实现

梯度下降法(gradient descent),又名最速下降法(steepest descent)是求解无约束最优化问题最常用的方法,它是一种迭代方法,每一步主要的操作是求解目标函数的梯度向量,将当前位置的负梯度方向作为搜索方向(因为在该方向上目标函数下降最快,这也是最速下降法名称的由来)。 梯度下降法特点:越接近目标值,步长越小,下降速度越慢。 直观上来看如下图所示: 这里每一个圈...
阅读(15455) 评论(6)

最小二乘法及其python实现

最小二乘法Least Square Method,做为分类回归算法的基础,有着悠久的历史(由马里·勒让德于1806年提出)。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。 那什么是最小二乘法呢?别着急,我们先从...
阅读(18199) 评论(7)

基于centos6.7的Ceph分布式文件系统安装指南

Ceph是加州大学Santa Cruz分校的Sage Weil(DreamHost的联合创始人)专为博士论文设计的新一代自由软件分布式文件系统。自2007年毕业之后,Sage开始全职投入到Ceph开 发之中,使其能适用于生产环境。Ceph的主要目标是设计成基于POSIX的没有单点故障的分布式文件系统,使数据能容错和无缝的复制。2010年3 月,Linus Torvalds将Ceph clien...
阅读(12589) 评论(2)

【问题跟踪】KryoException: java.io.IOException: No space left on device

今天在对LDA进行不同参数训练模型,记录其avglogLikelihood和logPerplexity,以便判断模型训练是否收敛时,产生了一个令人极度崩溃的事儿:程序在辛辛苦苦跑了7.3h后...挂了!证据如下: 早上一来看这张图,好像跑完了,然后点进去看...然后就没有然后了 每次迭代都需要9min左右,迭代了近50次跟我说挂了,确实挺让人奔溃的。 先说说我的配置以...
阅读(8394) 评论(3)

基于spark mllib的LDA模型训练源码解析

一直想写一篇关于LDA模型训练的源代码走读,但是因为个人水平以及时间原因未能如愿,今天想起来就记录了一下源码走读过程。有什么解释的不太清楚或者错误的地方请大家指正。 LDA模型训练大致经过以下这些步骤: 输入数据(已转换为Vector)和参数设置根据LDA选择的算法初始化优化器迭代优化器获得LDA模型 下面对每一步的源码进行代码跟进。完整的项目可以到我的github下载...
阅读(5832) 评论(5)

基于spark mllib的LDA模型训练Scala代码实现

从事NLP算法工作也快一年了,主要时间花在了LDA上面,但是却一直没有好好整理一下,决心把到目前为止做的一些东西分享出来,如有疑问敬请指正。 在Github上建了一个自己的项目:CkoocNLP(去这个名字是想做一个NLP相关的技术的代码实现,不过目前上面还没有什么东西)。里面已经有基于spark的训练和预测代码实现,有兴趣的同学可以去看看,代码比较简单,可以直接checkout出来跑。 直接...
阅读(3360) 评论(17)

通俗理解LDA主题模型

声明:本文转载自July的CSDN博客,仅作为知识记录所用,原文链接:http://blog.csdn.net/v_july_v/article/details/41209515 0 前言     印象中,最开始听说“LDA”这个名词,是缘于rickjin在2013年3月写的一个LDA科普系列,叫LDA数学八卦,我当时一直想看来着,记得还打印过一次,但不知是因为这篇文档...
阅读(7999) 评论(1)

spark1.6.0集群安装

1. 概述 本文是对spark1.6.0分布式集群的安装的一个详细说明,旨在帮助相关人员按照本说明能够快速搭建并使用spark集群。   2. 安装环境 本安装说明的示例环境部署如下: IP 外网IP hostname 备注 10.47.110.38 120.27.153.137 iZ237654q6qZ Master、Slaver ...
阅读(1412) 评论(0)

[Scala函数特性系列]——部分应用函数和柯里化

柯里化是指将原来接收两个参数的函数变成接收一个参数的函数的过程,新的函数返回一个以原有第二个参数作为参数的函数。是不是有种被绕晕了的感觉,先别急,先看一个示例:   结果:   这里可以看出,柯里化函数与多个参数的函数具有相同的功能,这中间有一个“应用部分函数”,或者叫“偏应用函数”,这个函数multipleOf4表示固定了两个参数中的一个,部分提供了函数mul所需要的参数...
阅读(1086) 评论(0)
53条 共4页1 2 3 4 下一页 尾页
    个人资料
    • 访问:172698次
    • 积分:1935
    • 等级:
    • 排名:千里之外
    • 原创:41篇
    • 转载:9篇
    • 译文:3篇
    • 评论:50条
    最新评论