很多人对于在AZURE上的数据如何来操作会觉得比较困难.因为原先用的blob是一个平层结构.不过现在数据也可以设置成多层次的结构,就极大的方便了数据的操作,你可以在文件夹,文件的层次来管理操作.
我们用python代码来管理数据,用到一个datalake的概念,datalake v2也需要对应的存储账号打开对应的功能.
首先第一步是创建datalake service client,这块对应了storage account.下面是一个利用连接字符串来创建的代码.
from azure.storage.filedatalake import DataLakeServiceClient
datalake_service_client = DataLakeServiceClient.from_connection_string(connect_str)
其实,除了连接字符串以外,还可以用SAS TOKEN, SERVICE PRINCIPAL, SERVICE CONNECTION 来创建datalake service client.不同的方式也使得安全等级,管理难易程度都不同.有些方式需要管理员权限才能操作.另外SERVICE PRINCIPAL, SERVICE CONNECTION虽然效果很好,但需要的步骤也会多一些,建议前期先熟悉用connection string 和sas token来创建.
接下来就是创建file system client,这块对应于storage account下面的container.
file_system_client = datalake_service_client.get_file_system_client(myfilesystem)
然后就是创建或者获取directory client,这块对应于storage account下面container下面的文件夹.
try:
directory_client = f