使用AWS遇到的一些问题

因为学习机器学习课程,需要用GPU做深度神经网路的训练,一般大家都用亚马逊的云服务。
第一次登录亚马逊,发现有很多云服务,其中用云存储,虚拟机,物联网,数据库,机器学习。一开始我以为要用机器学习的,后来发现其实大家都用虚拟机的,也就是EC2的那个。
有位牛人写了篇文章介绍,我主要就是参考他的。
https://zhuanlan.zhihu.com/p/25066187
但是遇到的问题,第一是ssh登录不成功:
主要的原因是需要生成一个pem文件,然后登录的时候要用-i key.pem参数。

然后用jupiter notebook发现也没有办法打开网页,发现是安全设置的问题,需要设置端口的权限
这里写图片描述
需要像这样设置,然后启动jupyter的命令参数要加上–ip=0.0.0.0
这里写图片描述
如果网页能打开的话,会显示有GET命令在处理:
这里写图片描述

最后要说明
这里写图片描述
这个问题我还没有解决,我有申请了一个实例的权限,可是总是不行,导致我不能用竞价,每次都只能用$0.9/hour的那种。
这里写图片描述

这里写图片描述
这个好像是GPU的信息,查看的命令是:watch -n 1 nvidia-smi

这里写图片描述
这个提示符第一次见,不知是怎样做到的。

这里写图片描述
这个是服务费的账单

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 使用Spark构建AWS数据湖时可能会遇到以下问题: 1. 数据格式不一致:在构建数据湖时,数据来自不同的来源,可能会有不同的格式。这可能会导致Spark无法正确解析数据。解决方法是使用Spark的Schema推断功能来自动推断数据格式,或手动指定Schema。 2. 数据质量问题:数据湖中的数据可能存在质量问题,如缺失值、异常值等。可以使用Spark的数据清洗功能来处理这些问题。 3. 数据量过大:数据湖中的数据量可能非常大,可能会导致Spark的性能问题。可以使用Spark的分布式计算功能来处理大规模数据。 4. 数据安全问题:数据湖中的数据可能包含敏感信息,需要进行安全保护。可以使用AWS的安全服务来保护数据湖中的数据。 5. 数据管理问题:数据湖中的数据可能需要进行管理,如备份、恢复、版本控制等。可以使用AWS的数据管理服务来管理数据湖中的数据。 处理这些问题的方法包括使用Spark的功能和AWS的服务来解决。同时,需要根据具体情况进行调整和优化,以确保数据湖的稳定和可靠性。 ### 回答2: 使用Spark构建AWS数据湖时可能会遇到以下一些问题,以及相应的解决方法: 1. 数据分析速度慢:当数据湖中的数据量非常大时,Spark可能无法快速处理,导致分析速度慢。可以采取以下几种解决办法:首先,优化代码和查询,使用更高效的算法和数据结构;其次,增加集群的规模,增加集群的计算和存储资源,从而提高处理速度;另外,可以使用数据分区、分区缓存等技术来提高查询性能。 2. 数据质量问题:在构建数据湖时,数据源可能来自不同的系统,数据质量可能存在问题,如缺失值、错误数据等。可以通过使用Spark的数据清洗和转换功能,对数据进行清洗和修正,去除错误或缺失的数据,从而提高数据质量。 3. 数据安全问题:数据湖中储存的数据可能包含敏感信息,需要确保数据的安全性。可以通过使用AWS提供的安全服务,如AWS Identity and Access Management(IAM)、加密存储等,来确保数据的安全性。同时,还可以使用Spark的安全特性,如数据加密、访问控制等,对数据进行保护。 4. 自动化数据处理问题:在构建数据湖时,可能需要定期从不同的数据源中获取数据,并进行清洗、转换等处理。可以使用Spark的调度功能,如Apache Airflow等,来自动化这些数据处理流程,以减少人工干预,提高效率。 5. 数据一致性问题:在数据湖中,可能存在来自不同源的数据,这些数据可能不一致,如字段名、数据格式等不同。可以使用Spark的数据合并和转换功能,将来自不同数据源的数据统一到一致的格式中,从而提高数据一致性。 通过解决以上问题,可以更好地构建和管理AWS数据湖,从而提高数据分析的效率和准确性。 ### 回答3: 使用Spark构建AWS数据湖时可能会遇到以下一些问题,以及相应的处理方式: 1. 数据源的异构性:AWS数据湖通常包含各种类型的数据源,如结构化数据、半结构化数据和非结构化数据。在使用Spark构建数据湖时,可能需要处理这些不同类型的数据。可以使用Spark的多功能性来处理不同的数据源,根据不同的需求采用适当的处理方式。 2. 数据质量和一致性:AWS数据湖中的数据可能来自不同的数据源,可能存在数据质量和一致性的问题。可以使用Spark的数据清洗和转换功能来清理和规范化数据。此外,还可以使用Spark的数据验证和一致性检查功能来确保数据的质量和一致性。 3. 大规模数据的处理:AWS数据湖中可能存储着大规模的数据,使用传统的数据处理方法可能会面临性能瓶颈。使用Spark可以充分利用其分布式计算能力,在集群上并行处理大规模数据,提高处理效率。 4. 数据安全和权限管理:AWS数据湖中的数据可能包含敏感信息,需要进行安全保护。可以使用AWS的安全功能,如访问控制策略和加密功能,来确保数据的安全性。此外,还可以使用Spark的身份验证和授权功能来限制对数据湖的访问权限。 5. 数据湖架构的设计:AWS数据湖的设计涉及到数据的组织和管理方式。可以使用Spark的数据分区和分桶功能,根据不同的需求对数据进行组织和管理。可以根据数据的属性和访问模式来设计合适的数据湖架构,提高数据的查询和访问效率。 总之,使用Spark构建AWS数据湖时需注意处理数据源的异构性、数据质量和一致性、大规模数据的处理、数据安全和权限管理、以及数据湖架构的设计。通过合理使用Spark的功能和AWS的安全和管理功能,可以解决这些问题,构建高效可靠的数据湖。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值