云端数据存储与处理:S3与EMR实战指南
1. 使用Python和boto3以编程方式访问S3
虽然基于浏览器的S3界面很方便,但有时我们希望在较少人工干预的情况下将对象上传到S3。这时可以使用AWS SDK,对于Python而言,就是boto库。当前版本是boto3,可使用以下命令安装:
pip install boto3
使用boto3与AWS交互需要授权,授权以访问密钥和访问密钥秘钥的形式提供。创建这些密钥需要回到浏览器中的AWS,具体步骤如下:
1. 导航到Identity Access and Management (IAM) 控制台,可以通过以下两种方式:
- 点击右上角的名称,然后选择“Security Credentials”,再在侧边栏选择“Users”。
- 直接访问:https://console.aws.amazon.com/iam/home?#/users
2. 点击“Add User”按钮,在第一个屏幕中,为用户设置用户名并勾选“Programmatic Access”,不勾选“AWS Management Console Access”,这样该用户只能通过编程方式访问AWS。
3. 点击进入第二页,设置用户权限。要赋予用户数据科学家的权限,操作如下:
- 点击“Attach Existing”查看AWS建议的权限策略。
- 在搜索栏中输入“DataScientist”并选择出现的结果。
AWS有多种安全策略适用于不同角色,如下表所示:
| AWS安全策略 | 使用场景 |