ApacheCN_Xy-CSDN博客

原创【机器学习实战】第5章 Logistic回归

ApacheCN——专注于优秀项目维护的开源组织，不止于权威的文档视频技术支持

2017-10-09 12:15:55 547

原创 scikit-learn（sklearn） 0.19 中文文档的翻译计划，邀请你的加入 | ApacheCN

scikit-learn（sklearn） 0.19 中文文档的翻译计划，邀请你的加入 | ApacheCN

2017-09-29 14:23:23 330

翻译 Apache Spark 2.2.0 中文文档 - SparkR (R on Spark) | ApacheCN

SparkR 是一个 R package, 它提供了一个轻量级的前端以从 R 中使用 Apache Spark. 在 Spark 2.2.0 中, SparkR 提供了一个分布式的 data frame, 它实现了像 selection, filtering, aggregation etc 一系列所支持的操作.（dplyr 与 R data frames 相似) ）, 除了可用于海量数据上之外. SparkR 还支持使用 MLlib 来进行分布式的 machine learning（机器学习）.

2017-09-26 16:28:44 409

翻译 Apache Spark 2.2.0 中文文档 - GraphX Programming Guide | ApacheCN

GraphX 是 Spark 中用于图形和图形并行计算的新组件。在高层次上， GraphX 通过引入一个新的图形抽象来扩展 Spark RDD ：一种具有附加到每个顶点和边缘的属性的定向多重图形。为了支持图形计算，GraphX 公开了一组基本运算符（例如： subgraph ，joinVertices 和 aggregateMessages）以及 Pregel API 的优化变体。此外，GraphX 还包括越来越多的图形算法和构建器，以简化图形分析任务。

2017-09-26 16:26:52 1082

翻译 Apache Spark 2.2.0 中文文档 - Structured Streaming 编程指南 | ApacheCN

Structured Streaming （结构化流）是一种基于 Spark SQL 引擎构建的可扩展且容错的 stream processing engine （流处理引擎）。您可以以静态数据表示批量计算的方式来表达 streaming computation （流式计算）。 Spark SQL 引擎将随着 streaming data 持续到达而增量地持续地运行，并更新最终结果。您可以使用 Scala ， Java ， Python 或 R 中的 Dataset/DataFrame API 来表示 st

2017-09-26 16:23:29 490

翻译 Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets Guide | ApacheCN

Spark SQL 是 Spark 处理结构化数据的一个模块.与基础的 Spark RDD API 不同, Spark SQL 提供了查询结构化数据及计算结果等信息的接口.在内部, Spark SQL 使用这个额外的信息去执行额外的优化.有几种方式可以跟 Spark SQL 进行交互, 包括 SQL 和 Dataset API.当使用相同执行引擎进行计算时, 无论使用哪种 API / 语言都可以快速的计算.这种统一意味着开发人员能够在基于提供最自然的方式来表达一个给定的 transformation API

2017-09-26 16:21:50 1561

翻译 Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN

Spark Streaming 是 Spark Core API 的扩展, 它支持弹性的, 高吞吐的, 容错的实时数据流的处理. 数据可以通过多种数据源获取, 例如 Kafka, Flume, Kinesis 以及 TCP sockets, 也可以通过例如 map, reduce, join, window 等的高级函数组成的复杂算法处理. 最终, 处理后的数据可以输出到文件系统, 数据库以及实时仪表盘中. 事实上, 你还可以在 data streams（数据流）上使用机器学习以及图形处理算法.

2017-09-26 16:19:48 754

翻译 Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN

在一个较高的概念上来说，每一个 Spark 应用程序由一个在集群上运行着用户的 main 函数和执行各种并行操作的 driver program（驱动程序）组成。Spark 提供的主要抽象是一个弹性分布式数据集（RDD），它是可以执行并行操作且跨集群节点的元素的集合。RDD 可以从一个 Hadoop 文件系统（或者任何其它 Hadoop 支持的文件系统），或者一个在 driver program（驱动程序）中已存在的 Scala 集合，以及通过 transforming（转换）来创建一个 RDD。用户为了让

2017-09-26 16:15:41 607

翻译 Spark RDD（Resilient Distributed Datasets）论文 | ApacheCN

为了能解决程序员能在大规模的集群中以一种容错的方式进行内存计算这个问题, 我们提出了 RDDs 的概念. 当前的很多框架对迭代式算法场景与交互性数据挖掘场景的处理性能非常差, 这个是 RDDs 的提出的动机. 如果能将数据保存在内存中, 将会使的上面两种场景的性能提高一个数量级. 为了能达到高效的容错, RDDs 提供了一种受限制的共享内存的方式, 这种方式是基于粗粒度的转换共享状态而非细粒度的更新共享状态. 然而, 我们分析表明 RDDs 可以表达出很多种类的计算, 包括目前专门从事迭代任务的编程计算模型

2017-09-21 16:16:36 731

翻译 Apache Spark 2.2.0 中文文档 - 快速入门 | ApacheCN

本教程提供了如何使用 Spark 的快速入门介绍。首先通过运行 Spark 交互式的 shell（在 Python 或 Scala 中）来介绍 API, 然后展示如何使用 Java , Scala 和 Python 来编写应用程序。为了继续阅读本指南, 首先从 Spark 官网下载 Spark 的发行包。因为我们将不使用 HDFS, 所以你可以下载一个任何 Hadoop 版本的软件包。

2017-09-20 14:08:00 1001

翻译 Apache Spark 2.2.0 中文文档 - 概述 | ApacheCN

Apache Spark 是一个快速的, 多用途的集群计算系统。它提供了 Java, Scala, Python 和 R 的高级 API，以及一个支持通用的执行图计算的优化过的引擎. 它还支持一组丰富的高级工具, 包括使用 SQL 处理结构化数据处理的 Spark SQL, 用于机器学习的 MLlib, 用于图形处理的 GraphX, 以及 Spark Streaming。

2017-09-20 14:03:52 477

原创【机器学习实战】第10章 K-Means（均值）聚类算法

K-均值是发现给定数据集的 k 个簇的算法。

2017-09-12 17:59:39 855

原创【机器学习实战】第4章朴素贝叶斯（Naive Bayes）

ApacheCN——专注于优秀开源项目维护的组织，不止于权威的文档视频技术支持

2017-09-03 23:08:32 790

原创【机器学习实战】第7章集成方法随机森林（RandomForest）和 Adaboost

ApacheCN——专注于优秀开源项目维护的组织，不止于权威的文档视频技术支持

2017-09-01 11:16:54 1460

原创【机器学习实战】第3章决策树（DecisionTree）

ApacheCN——专注于优秀开源项目维护的组织，不止于权威的文档视频技术支持

2017-09-01 11:14:01 438

原创【机器学习实战】第2章 K-近邻算法（KNN）

ApacheCN——专注于优秀开源项目维护的组织，不止于权威的文档视频技术支持

2017-09-01 11:11:47 672

原创【机器学习实战】第1章机器学习基础

ApacheCN——专注于优秀开源项目维护的组织不止于权威的文档视频技术支持

2017-09-01 11:05:08 426

原创 Apache Storm 1.1.0 中文文档 | ApacheCN

前言 Apache Storm 是一个免费的，开源的，分布式的实时计算系统. 官方文档: http://storm.apache.org 中文文档: http://storm.apachecn.orgApacheCN 最近组织了翻译 Storm 1.1.0 中文文档的活动，整体翻译进度为 96%. 感谢大家参与到该活动中来感谢无私奉献的贡献者，才有了这份 Storm 1.1.0

2017-08-28 18:24:31 500

原创 Apache Spark 2.2.0 中文文档迭代翻译活动，期待您的参与 | ApacheCN

ApacheCN 专注于优秀开源项目维护的组织不止于权威的文档视频技术支持

2017-07-17 16:19:53 512

原创 Apache Kudu 1.4.0 中文文档

ApacheCN 维护的 Apache Kudu 的中文版官方文档

2017-07-13 11:50:35 5203 1

原创 scikit-learn 0.18.2 API 中文文档 | ApacheCN

ApacheCN 维护的 sklearn 0.18.2 API 的中文文档

2017-07-13 11:12:31 4582 2

原创 scikit-learn 0.18.2 中文文档 | ApacheCN

ApacheCN 维护的 sklearn 的中文版官方文档

2017-07-13 11:04:50 1147

原创 Apache Zeppelin 0.7.2 中文文档-ApacheCN

ApacheCN（Apache中文网）- 关于我们 : http://www.apache.wiki/pages/viewpage.action?pageId=10030937ApacheCN（Apache中文网）- Apache Zeppelin 0.7.2 中文文档 : http://www.apache.wiki/pages/viewpage.action?pageId=10

2017-06-15 14:20:39 1449

原创 Apache Spark 2.0.2 中文文档 | 小瑶 - ApacheCN ( Apache中文网 )

ApacheCN（Apache中文网）- 关于我们 : http://www.apache.wiki/pages/viewpage.action?pageId=2887249ApacheCN（Apache中文网）- Apache Spark 2.0.2 中文文档 : http://www.apache.wiki/pages/viewpage.action?pageId=2883613

2017-04-14 11:55:57 771

ApacheCN-Xy

原创【机器学习实战】第5章 Logistic回归

原创 scikit-learn（sklearn） 0.19 中文文档的翻译计划，邀请你的加入 | ApacheCN

翻译 Apache Spark 2.2.0 中文文档 - SparkR (R on Spark) | ApacheCN

翻译 Apache Spark 2.2.0 中文文档 - GraphX Programming Guide | ApacheCN

翻译 Apache Spark 2.2.0 中文文档 - Structured Streaming 编程指南 | ApacheCN

翻译 Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets Guide | ApacheCN

翻译 Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN

翻译 Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN

翻译 Spark RDD（Resilient Distributed Datasets）论文 | ApacheCN

翻译 Apache Spark 2.2.0 中文文档 - 快速入门 | ApacheCN

翻译 Apache Spark 2.2.0 中文文档 - 概述 | ApacheCN

原创【机器学习实战】第10章 K-Means（均值）聚类算法

原创【机器学习实战】第4章朴素贝叶斯（Naive Bayes）

原创【机器学习实战】第7章集成方法随机森林（RandomForest）和 Adaboost

原创【机器学习实战】第3章决策树（DecisionTree）

原创【机器学习实战】第2章 K-近邻算法（KNN）

原创【机器学习实战】第1章机器学习基础

原创 Apache Storm 1.1.0 中文文档 | ApacheCN

原创 Apache Spark 2.2.0 中文文档迭代翻译活动，期待您的参与 | ApacheCN

原创 Apache Kudu 1.4.0 中文文档

原创 scikit-learn 0.18.2 API 中文文档 | ApacheCN

原创 scikit-learn 0.18.2 中文文档 | ApacheCN

原创 Apache Zeppelin 0.7.2 中文文档-ApacheCN

原创 Apache Spark 2.0.2 中文文档 | 小瑶 - ApacheCN ( Apache中文网 )

空空如也

空空如也