工程通用
文章平均质量分 73
工程设计开发优化相关的内容,如架构,后端,新工具等,优秀架构的搬运工。
fengrucheng
Think big, start small
展开
-
Retrieve top n in each group of a DataFrame in pyspark/ scala
There’s a DataFrame in pyspark with data as below:user_id object_id scoreuser_1 object_1 3user_1 object_1 1user_1 object_2 2user_2 object_1 5user_2 object_2 2user_2 object_2 6What I expect is returning 2 records in each group with the原创 2020-06-02 10:51:58 · 228 阅读 · 1 评论 -
Spark 安装与卸载 (windows 10)
文章目录先决条件系统要求安装步骤Java安装步骤:(已安装可跳过)测试Java安装:(已安装可跳过)测试安装结果:从Windows 10系统中卸载Spark:删除系统/用户变量步骤:Apache Spark是一个快速通用的集群计算系统。它提供了Java、Scala、Python和R语言的高级API,拥有优化了的通用图计算引擎。它还拥有丰富的其他高级工具,如:用于SQL和结构化数据处理的Spark SQL 、用于机器学习的MLlib、用于图计算的GraphX、以及用于流式批处理的Spark Streamin原创 2020-05-10 17:43:44 · 8747 阅读 · 3 评论 -
快速入门(spark 2.4.5)
文章目录安全使用Spark Shell的交互分析基础有关Dataset的更多操作缓存独立的应用程序从入门到放弃?本教程提供了使用Spark的快速介绍。我们将首先通过Spark的交互式shell(用Python或Scala)介绍API,然后展示如何用Java、Scala和Python编写应用程序。想要按照本指南学习,首先需要从Spark网站下载Spark的打包版本。因为我们不使用HDFS,所以您...翻译 2020-05-07 18:23:32 · 483 阅读 · 0 评论 -
机器学习库(MLlib)指南(Spark 2.4.5)
MLlib是Spark的机器学习(ML)库。它的目标是使机器学习的实际应用变得容易和可扩展。在较高层次上,它提供了以下工具:ML算法:常见的学习算法,如分类、回归、聚类和协作过滤 特征化:特征提取、转换、降维和筛选 工作流(Pipelines):构建、评估和调整ML工作流的工具 持久性:保存和加载算法、模型和工作流 实用程序:线性代数、统计学、数据处理等。注:基于DataFrame的...翻译 2020-05-04 15:37:21 · 939 阅读 · 0 评论 -
Piranha介绍:过期代码自动删除的开源工具
在Uber,我们使用功能标志(feature flags)定制移动应用程序的执行,为不同的用户组提供不同的功能。例如,这些标志允许我们将用户的体验本地化到我们操作的不同区域,更重要的是,我们可以逐步向用户推出功能,并尝试同一功能的不同变体。然而,在一个特性被100%地发布给我们的用户或者一个实验性的特性被认为是不成功的之后,代码中的特性标志就过时了。这些非功能特性标志可以说是技术“债...翻译 2020-05-02 21:18:37 · 687 阅读 · 0 评论