首先python加载访问maxcompute包,在这之前需要运维给你开通python访问maxcompute的白名单,否则是要被拒绝的。
from odps import ODPS
from odps.df import DataFrame
import pandas as pd
然后访问你的project
project = odps.get_project()
将结果读为数据集dataframe,此处是odps数据集,跟pandas的数据集有不同,不能使用pandas里面的数据集操作,比如设定列名,求数据集长度等
users = DataFrame(odps.get_table(‘sx_001’))
对习惯了pandas数据集的我来说特别不便,尝试了许多方法,终于找到一种方法将odps数据集转为pandas数据集:
b=pd.DataFrame()
for i in range(int(str(users .count()))):
b=b.append([users .head(i+1)[i]])
效率不快,目前只适合数据量较小的数据集,大家如有其他更快的方法也可分享给我。
参考文献
[1]: https://help.aliyun.com/document_detail/90444.html?spm=a2c4g.11186623.2.16.3fcc1ee6rfVQTN#concept-ch1-lwf-cfb