知识点
文章平均质量分 74
小菜鸡一号
这个作者很懒,什么都没留下…
展开
-
Spark_DataFrame vs SQL
Spark DataFrame vs SQL 的小练习 a.初始化Spark Session import findspark findspark.init() from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark SQL") \ .con...原创 2020-01-05 14:46:37 · 122 阅读 · 0 评论 -
Spark_DataFrame
总览 Spark SQL 是 Spark 处理结构化数据的一个模块, 与基础的 Spark RDD API 不同, Spark SQL 提供了查询结构化数据及计算结果等信息的接口.在内部, Spark SQL 使用这个额外的信息去执行额外的优化.有几种方式可以跟 Spark SQL 进行交互, 包括 SQL 和 Dataset API.当使用相同执行引擎进行计算时, 无论使用哪种 API / 语...原创 2020-01-05 14:36:08 · 111 阅读 · 0 评论 -
Spark_RDD
RDD 弹性分布式数据集,就像Numpy array和Pandas Series,可以看作是一个有序的item集合,只不过这些item被分隔为多个partitions,分布在不同的机器上, 1.请简述RDD的含义,并写出针对RDD的两类操作(transformation与action),每类下至少三种的操作。 RDD(Resilient Distributed Datasets),弹性分布式数...原创 2020-01-04 13:06:48 · 128 阅读 · 0 评论 -
python读写json文件
Json是一种轻量级的数据交换格式。 1.json.dumps()和json.loads()是json格式处理函数(可以这么理解,json是字符串) json.dumps()函数 将 Python 对象编码成 JSON 字符串(字典–》字符串)【编码】 json.loads()函数 将已编码的 JSON 字符串解码为 Python 对象(字符串----》字典)【解码】 语法 json.dum...原创 2019-12-20 10:12:56 · 145 阅读 · 0 评论