- 博客(3)
- 收藏
- 关注
原创 Spark MLlib机器学习—封面
Spark MLlib机器学习,目前已经正在印刷中,预计4月初可以正式上市,请大家多多关注!封面如下:
2016-03-18 11:59:55 2571 1
转载 Apache Arrow:一个跨平台的内存数据交换格式
1、Apache Arrow:一个跨平台的内存数据交换格式Apache Arrow是Apache基金会下一个全新的开源项目,同时也是顶级项目。它的目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。用户在应用大数据分析时除了将Hadoop等大数据平台作为一个经济的存储和批处理平台之外也很看重分析系统的扩展性和性能。过去几年开源社区已经发布了很多工具来完善大数据分析的生态系统,这些工
2016-03-11 11:25:44 3810
原创 基于Spark自动扩展scikit-learn (spark-sklearn)
1、基于Spark自动扩展scikit-learn(spark-sklearn)1.1 导论Spark MLlib 将传统的单机机器学习算法改造成分布式机器学习算法,比如在梯度下降算法中,单机做法是计算所有样本的梯度值,单机算法是以全体样本的计算单位;而分布式算法的逻辑是以每个样本为单位,在集群上分布式的计算每个样本的梯度值,然后再对每个样本的梯度进行聚合操作等。在Spark Mllib中
2016-03-10 17:47:25 19792 4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人