2016年02月_codemosi

11月 09月 07月 06月 03月 02月 01月

转载以性别预测为例，谈谈数据挖掘中的分类问题

互联网的迅猛发展，催生了数据的爆炸式增长。面对海量的数据，如何挖掘数据的价值，成为一个越来越重要的问题。本文首先介绍数据挖掘的基本内容，然后按照数据挖掘基本的处理流程，以性别预测实例来讲解一个具体的数据挖掘任务是如何实现的。数据挖掘的基本内容首先，对于数据挖掘的概念，目前比较广泛认可的一种解释如下：Data mining is the use of efficient te

2016-02-29 12:33:10 917

转载 Spark MLlib知识点学习整理

MLlib的设计原理:把数据以RDD的形式表示，然后在分布式数据集上调用各种算法。MLlib就是RDD上一系列可供调用的函数的集合。操作步骤:1、用字符串RDD来表示信息。2、运行MLlib中的一个特征提取算法来吧文本数据转换为数值的特征。给操作会返回一个向量RDD。3、对向量RDD调用分类算法，返回一个模型对象，可以使用该对象对新的数据点进行分类。4、使用

2016-02-25 10:47:09 888

转载 Tachyon更名为 Alluxio，并发布1.0版本

【摘要】近日，人气开源分布式内存文件系统Tachyon正式更名为Alluxio，并发布了1.0版本。自从Alluxio的第一个开源版本发布之后，我们社区的人数从1个迅速增加到200多个，这200多人来自50多个公司，这些公司将Alluxio部署到由成百上千机器构成的生产环境中。Alluxio（前Tachyon）起源于我读博期间在 UC Berkeley AMPLab实验室的一个研究项目

2016-02-24 13:47:39 3056 3

转载 Spark:Yarn-cluster和Yarn-client区别与联系

我们都知道Spark支持在yarn上运行，但是Spark on yarn有分为两种模式yarn-cluster和yarn-client，它们究竟有什么区别与联系？阅读完本文，你将了解。Spark支持可插拔的集群管理模式(Standalone、Mesos以及YARN)，集群管理负责启动executor进程，编写Spark application的人根本不需要知道Spark用的是什么集群管理。

2016-02-24 13:46:56 552

转载深入理解Apache Flink核心技术

2016-02-23 22:37:32 1787

转载 Spark MLlib Statistics统计

2015-05-11 15:441、Spark MLlib Statistics统计Spark Mllib 统计模块代码结构如下：1.1 列统计汇总计算每列最大值、最小值、平均值、方差值、L1范数、L2范数。 //读取数据，转换成RDD[Vector]类型 val data_path = "/home/jb-huangme

2016-02-22 21:39:21 807

转载 mllib基础

此部分主要关于MLlib的基础数据结构1、本地向量MLlib的本地向量主要分为两种，DenseVector和SparseVector，顾名思义，前者是用来保存稠密向量，后者是用来保存稀疏向量，其创建方式主要有一下三种（三种方式均创建了向量(1.0, 0.0, 2.0）：[plain] view plain copyimport o

2016-02-22 21:37:15 641

转载斯坦福大学损失函数推导

1.线性回归CostFunction推导：在线性回归中，Cost Function是，关于这个公式的推导，首先由一个假设,其中满足高斯分布，.那么根据得出在这里，把看成是随机变量，那么服从高斯分布，，对于给定的X，theta要估计y的分布是怎么样的，极大似然估计函数为：

2016-02-22 18:18:18 1279

转载斯坦福大学线性回归

本节内容主要包含单变量（One Variable）和求解costfunction的最优值的学习算法—梯度下降法（Gradientdescent）以及多变量（multipleVariable）的线性回归。1. 单变量的线性回归（Linear Regission with onevariable）监督学习的样本中都含有对于每个输入变量的输出值，通过建立模型并且

2016-02-22 18:17:25 636

转载斯坦福大学lr

1.分类问题判断一封邮件是否为垃圾邮件，判断肿瘤是良性的还是恶性的，这些都是分类问题。在分类问题中，通常输出值只有两个（一般是两类的问题，多类问题其实是两类问题的推广）（0叫做负类，1叫做正类）。给定一组数据，标记有特征和类别，数据如（x(i),y(i)），由于输出只有两个值，如果用回归来解决会取得非常不好的效果。在良性肿瘤和恶性肿瘤的预测中，样本数据如下上图是用线

2016-02-22 18:16:54 395

转载转lr

逻辑回归作为分类算法的一种，在互联网领域中的预测、判别中应用的非常广泛，像广告投放中的点击率预估，推荐算法中的模型融合等等。本文简要介绍逻辑回归的算法，以及在MLlib中的实现解析。逻辑回归其实是一个分类问题，此类问题的模型训练，基本上分3步骤，第一步要寻找假设预测函数h，构造的假设函数为在线性回归的函数基础上，加上一个Sigmoid函数进行Norm，把函数值输出在

2016-02-22 17:31:55 520

转载转载lr spark细节

原创文章，转载请注明：转载自http://www.cnblogs.com/tovin/p/3816289.html 本文以spark 1.0.0版本MLlib算法为准进行分析一、代码结构逻辑回归代码主要包含三个部分1、classfication：逻辑回归分类器2、optimization：优化方法，包含了随机梯度、LBFGS两种算法

2016-02-22 17:30:22 1223

转载 spark state（转）

许多复杂流处理流水线程序必须将状态保持一段时间，例如，如果你想实时了解网站用户行为，你需要将网站上各“用户会话（user session）”信息保存为持久状态并根据用户的行为对这一状态进行持续更新。这种有状态的流计算可以在Spark Streaming中使用updateStateByKey 方法实现。在Spark 1.6 中，我们通过使用新API mapWithState极大地增强对状态流

2016-02-17 20:33:15 988

Effective Java中文

这是一个写好应用的外国产品，帮助找到线上应用存在的error。包括返回错误异常等。

2019-05-07

Zookeeper 在携程的使用和场景

Zookeeper 在携程的使用和场景,生产线上的正式场景例子。引导我的zookeeper的系列文章

2015-03-24

zkoss开发培训资料

zkoss开发培训资料，和大家分享，仅为帮java web开发人员减轻开发压力，我也是java web开发，为了做效果好的界面，曾经深受过easyui和extjs深深的恶心过。根据项目中辛苦整理的培训文档，转载请注明下载地址，如果有需要源码可以联系我。

2014-07-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人