GraphLab Create 是一款机器学习的函数库,其中的SFrame也是十分强大的数据管理工具。它允许直接从硬盘中读取数据,免于将数据全部加载到内存中。Graphlab Create 的API官方说明文档是英文的,我查了一下也没有发现中文文档,所以我将它翻译过来,方便英文不是十分流畅的同学们学习。非英语专业,如有纰漏,望在评论中及时指出,一起完善这项工作。
预计5月底之前完成。
[阅读原文]
GraphLab Create API 文档
GraphLab Create 是python语言的库,依靠C++引擎支持,可以用来快速建立大规模,高质量的数据产品。
下面是Graphlab Create的一些关键特性:
-在你的个人电脑上面,以即时的速度处理TB级的数据。
-在同一个平台处理表格数据、图形、文字和图片。
-最前沿的机器学习算法,包括deep learning、boosted trees和factorization machines
-使用Hadoop Yarn 或EC2,使你的电脑和分布式系统上运行同样的代码。
-应用灵活的API,以专注于目标或机器学习。
-使用Predictive Services,数据产品部署到云端更加容易。
目录
数据工程
大数据结构
graphlab.SArray
graphlab.SFrame
graphlab.SGraph
graphlab.TimeSeries
数据类型
graphlab.Image
概要
graphlab.Sketch
聚类
Groupby Aggregation
链接
Avro
CSV
Pandas.DataFrame
Spark RDD
SQL Database
HDFS/S3
应用
graphlab.load_sgraph
graphlab.load_sframe
graphlab.load_timeseries
graphlab.TimeSeries.save
graphlab.SArray.save
graphlab.SFrame.save
graphlab.Vertex
graphlab.Edge
工具箱
-机器学习应用
anomaly_detection
churn_predictor
data_matching
deeplearning
pattern_mining
recommender
sentiment_analysis
-关键的机器学习模型
classifier
clustering
graph_analytics
nearest_neighbors
regression
topic_model
-特征工程
feature_engineering
-模型评价
cross_validation
evaluation
model_parameter_search
-应用和拓展
extensions
load_model
distances
image_analysis
text_analytics
部署
Predictive Services
Ec2 Cluster
Hadoop Cluster
Session Management
Utility
AWS
Visualization
Configuration
Numpy Integration