数据工程
GraphLab Create提供了若干数据结构来进行数据分析。
在API文档中,包含了数据结构和方法的简介,以及少量的简单示例。更多的细节和示例,请参考用户手册, API Translator, How-Tos, 和 数据科学Gallery。
可拓展的数据结构
SArray 一个不可变的,元素同类型的数组对象,支持长期存储。
SFrame 一个列数可变的表格型数据框架对象,可以适应大数据。
SGraph 一个可拓展的图形结构。
TimeSeries TimeSeries对象是一个多变量时间序列数据的基础结构。
数据类型
load_sgraph 从文本文件或者之前保存的SGraph二进制文件中加载SGraph。
load_sframe 加载一个SFrame。
load_timeseries 从给定路径加载一个已有的TimeSeries对象。
TimeSeries.save 保存TimeSeries对象到指定路径。
SArray.save 保存SArray到文件。
SFrame.save 保存SFrame到文件系统,以供后继使用。
SGraph.save 保存SGraph到磁盘。
Vertex 一个vertex 对象,包括一个vertex ID和一个vertex 参数的dict。
Edge 夹在两个Vertex 对象之间的一个有向边。
GraphLab Create提供了若干数据结构来进行数据分析。
在API文档中,包含了数据结构和方法的简介,以及少量的简单示例。更多的细节和示例,请参考用户手册, API Translator, How-Tos, 和 数据科学Gallery。
可拓展的数据结构
SArray 一个不可变的,元素同类型的数组对象,支持长期存储。
SFrame 一个列数可变的表格型数据框架对象,可以适应大数据。
SGraph 一个可拓展的图形结构。
TimeSeries TimeSeries对象是一个多变量时间序列数据的基础结构。
数据类型
Image 一个包含图像数据,媒体数据,并支持很多实用方法的类。
Sketch Sketch 对象包括一个SArray (SFrame的一个列)的摘要。
聚类
Groupby Aggregation
链接
Avro
CSV
Pandas.DataFrame
Spark RDD
SQL Database
HDFS/S3
load_sgraph 从文本文件或者之前保存的SGraph二进制文件中加载SGraph。
load_sframe 加载一个SFrame。
load_timeseries 从给定路径加载一个已有的TimeSeries对象。
TimeSeries.save 保存TimeSeries对象到指定路径。
SArray.save 保存SArray到文件。
SFrame.save 保存SFrame到文件系统,以供后继使用。
SGraph.save 保存SGraph到磁盘。
Vertex 一个vertex 对象,包括一个vertex ID和一个vertex 参数的dict。
Edge 夹在两个Vertex 对象之间的一个有向边。