- 博客(5)
- 资源 (5)
- 收藏
- 关注
翻译 Spark ML Pipelines
提供基于DataFrames的API构建机器学习Pipelines. 主要为了方便将多个算法可以方便地加载到一个工作流或者处理管道中。有几个基本的概念:数据帧DataFrame用做于ML 数据集,可以包含多种数据类型,参见Spark SQL 数据类型,同时可以使用ML向量(vector)类型ML向量由包含整数类型、0开始的索引以及双精度数据组成,其中又分稠密向量(dense)和稀疏(sparse)...
2018-07-06 16:02:17 581
转载 皮尔森卡方检验pearson chi-square 与 费舍尔精确检验fisher's exact test
四格表资料例数大于40,且所有理论数大于5,则用普通的Pearson 检验。例数大于40,所有理论数大于1,且至少一个理论数小于5,则用校正的 检验或Fisher’s确切概率法检验。例数小于40,或有理论数小于2,则用Fisher’s确切概率法检验。2×C表或R×2表资料的统计分析列变量&行变量均为无序分类变量,则(1)例数大于40,且理论数小于5的格子数目<总格子数目的25%,则用普通的P...
2018-07-06 10:42:43 26440
翻译 Spark ML Basic Statistics
相关性Correlation用于计算两组数据之间的相关性, 当前spark.ml支持皮尔森(Pearson)相关系数和斯皮尔曼(Spearman)等级相关系数.皮尔森相关系数受异常数据的影响比较大,比如变量中的值(变量的标注差为0)不能相同。斯皮尔曼等级相关系数则不受限制,经常被称为非参数相关系数,包含两层含义:1.只要在X和Y具有单调的函数关系的关系,那么X和Y就是完全Spearman相关的,这...
2018-07-06 10:11:22 611
翻译 Spark Machine Learning Library(MLlib)
MLlib: Spark机器学习(ML)库, 包含:ML 算法:分类classification, 回归regression, 聚类clustering, 协同过滤 collaborative filtering特征化:特征提取,转换,降维度,选择性管道Pipeline: 用于构造、评价以及调节Pipeline持久化:保存、加载算法、模型以及管道工具:线性代数、统计、数据处理等基于DataFram...
2018-07-05 15:45:43 378
翻译 Practical Multithreading for Client Apps (.net客户端程序使用多线程的实践)
转自 MSDN Magazine Jan. 2004 原作者 Jason Clark内容 线程原理 为什么使用多线程 线程与Windows 用户界面 管理线程池(Thread Pool) 最简单的线程同步 细节 - 实现取消按钮 更多的细节 - 计时器(Timers) 愿景 通常认
2007-10-18 13:33:00 993
ASP.Net 3.5 Enterprise Application Development with Visula Studio 2008
2009-11-06
Apress - Pro ASP NET MVC Framework Apr 2009
2009-06-18
Hufman算法C#实现代码
2009-02-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人