微软在5月发布了.net for spark版本,让.net大军可以加入大数据分析阵容。由于资料是少之又少,百度了下,基本上没有,也是从零开始,只能自己瞎倒腾,所以自己留下点笔记吧。
HelloSpark。
安装运行环境很简单,百度官网,按照步骤安装即可。
https://docs.microsoft.com/zh-cn/dotnet/spark/tutorials/get-started
新建项目.net core,NuGet安装micrsoft.spark包。然后引用一下Microsoft.Spark.Sql;
按照官网示例新建一个APP;
SparkSession spark = SparkSession.Builder().AppName("xfj_xfr").GetOrCreate();
下面就是导入文件了,分别使用text和CSV尝试下,然后翻了下视频教程,学着样子写了几句。
DataFrame xfjdf = spark.Read()
.Option("Delimiter", "|")
.Option("Encoding", "UTF-8")
.Schema("xfjbh STRING,djsj STRING,djjgmc STRING,gkxx STRING,cfxfb