大数据
一只齐刘海的猫
这个作者很懒,什么都没留下…
展开
-
Pyspark 学习
from pyspark.sql import SparkSession## 设置要连接的Spark主节点URL,"local"表示在本地运行,"local[2]"表示在本地调用2个核心运行spark = SparkSession.builder.master('local[2]').appName('Basics').getOrCreate()一、Spark SQLdf = spark.read.csv('appl_stock.csv',inferSchema=True,header=True原创 2020-06-19 14:52:16 · 463 阅读 · 1 评论 -
Pyspark 机器学习
一、SparkSessionfrom pyspark.sql import SparkSessionspark = SparkSession.builder.appName('test').getOrCreate()1、回归(Regression)df = spark.read.csv('cruise_ship_info.csv',inferSchema=True,header=True)df.show(5)+-----------+-----------+---+-----------原创 2020-06-19 14:50:48 · 1154 阅读 · 0 评论 -
Pyspark 基础
一、SparkSessionfrom pyspark.sql import SparkSession## 设置要连接的Spark主节点URL,"local"表示在本地运行,"local[2]"表示在本地调用2个核心运行spark = SparkSession.builder.master('local[2]').appName('Basics').getOrCreate()二、DataFrameDataFrame 是带有 schema 信息的 RDD,类似于传统数据库中的二位表格。## 从原创 2020-06-19 14:49:03 · 314 阅读 · 0 评论 -
Spark 实战
这里写自定义目录标题第一部分 使用 Scala 语言开发 Spark 应用程序新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入第一部分 使用 Scala 语言开发 Spark 应用程序你好! 这是你第一次使用 Markd原创 2020-06-19 11:00:17 · 3082 阅读 · 0 评论