.Net大数据平台Microsoft.Spark环境构建 附可运行源码。

41 篇文章 0 订阅
20 篇文章 0 订阅

前言:大什么数据?什么大数据?什么数据大?挖野菜才是正道。

 NBNBNB 老资终于可以不用花太多精力搞python了  。

window环境的.Net大数据平台环境构建 附带可运行源码。

windows 安装jdk 相关坑 java jdk1.8.0_221 安装步骤_云草桑的博客-CSDN博客_jdk1.8.0_221

 .NET for Apache Spark 使用 .NET Core 在 Windows、Linux 和 macOS 上运行。 它还使用 .NET Framework 在 Windows 上运行。 可以将应用程序部署到所有主要云提供商,包括 Azure HDInsight Spark、Amazon EMR Spark、Azure Databricks 和 AWS 上的 Databricks。

 

.NET for Apache Spark 性能

与使用 TPC-H 基准的 Python 和 Scala 相比,.NET for Apache Spark 在大多数情况下表现良好,并且当用户定义的函数性能至关重要时,其速度比 Python 快两倍。 目前正在努力提升基准性能。

1下载并安装 Apache Spark

spark/docs/release-notes at main · dotnet/spark · GitHub下载并安装 Apache Spark 3.0.1

 

查看当前运行版本

   dotnet --version

  或

    dotnet --list-sdks

   安装的所有版本 包括版本地址

dotnet --info


帮助命令
dotnet help

运行以下命令,以设置用于查找 Apache Spark 的环境变量。 在 Windows 上,确保在管理员模式下运行命令提示符。

setx /M HADOOP_HOME C:\bin\spark-3.0.1-bin-hadoop2.7\
setx /M SPARK_HOME C:\bin\spark-3.0.1-bin-hadoop2.7\
setx /M PATH "%PATH%;%HADOOP_HOME%;%SPARK_HOME%bin"

安装所有内容并设置环境变量后,打开新的命令提示符或终端并运行以下命令:

spark-submit --version

如果该命令运行并打印出版本信息,则可转到下一步。

如果收到 'spark-submit' is not recognized as an internal or external command 错误,请确保已打开新的命令提示符。

spark/docs/release-notes at main · dotnet/spark · GitHub

---分割线 现在只是hadoop 装好  .net 还用不起来-----

4、安装 .NET for Apache Spark

从 .NET for Apache Spark GitHub 下载 Microsoft.Spark.Worker

要提取 Microsoft.Spark.Worker:

  • 解压 Microsoft.Spark.Worker.netcoreapp3.1.win-x64-1.0.0.zip 文件。

5、安装 WinUtils(仅限 Windows)

.NET for Apache Spark 要求与 Apache Spark 一起安装 WinUtils。 下载 winutils.exe。 然后,将 WinUtils 复制到 spark-3.2.1-bin-hadoop3.2\bin。

6、设置 DOTNET_WORKER_DIR 并检查依赖项,指向Worker解压目录

path

 

setx /M DOTNET_WORKER_DIR <PATH-DOTNET-WORKER-DIR>

---------------分割线 .net  大数据平台搭建完毕了 ------------

NBNBNB  好像和 搜索引擎之Lucence.Net_云草桑的博客-CSDN博客 这个和Lucence.Net一样分词也有点智障。。

 

 static void Main(string[] args)
        {
            // Create a Spark session/Job
            SparkSession spark = SparkSession
                .Builder()
                .AppName("word_count_sample")
                .GetOrCreate();

            // Create initial DataFrame
            DataFrame dataFrame = spark.Read().Text("美猴王.txt");

            // Count words
            DataFrame words = dataFrame
                .Select(Functions.Split(Functions.Col("value"), " ").Alias("words"))
                .Select(Functions.Explode(Functions.Col("words"))
                .Alias("word"))
                .GroupBy("word")
                .Count()
                .OrderBy(Functions.Col("count").Desc());

            // Show results
            words.Show();

            // Stop Spark session
            spark.Stop();
        }

 NBNBNB 老资终于可以不用花太多精力搞python了  

好像不能调试。。。就先这样吧  

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

云草桑

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值