中职-大数据应用与服务(豆瓣电影)

任务A:数据采集与处理

环境说明:

操作系统:windows 10

IDE:PyCharm Community-2023.2

软件:Python 3.11.4

库包:Scrapy==2.10.1,lxml==4.9.3

子任务一:数据采集

网站解析,利用Chrome查看网页源码,分析豆瓣电影 Top 250(https://movie.douban.com/top250)网页结构。

1)打开豆瓣电影 Top 250网站,在网页中右键点击检查,或者F12快捷键,查看元素页面;

2)检查网站:浏览网站源码查看所需内容。

从豆瓣电影 Top 250网站中爬取需要数据,按照要求使用Python语言编写爬虫代码,爬取指定数据项,并对结果数据集进行数据探索、以及必要的数据处理操作。请将符合题目要求的代码答案复制粘贴至对应报告中。

具体步骤如下:

1)使用Scrapy框架创建爬虫项目

2)构建爬虫请求

3)按要求定义相关字段

4)获取有效数据

5)将爬取到的数据保存到指定位置

至此已从豆瓣电影 Top 250网站中爬取了所需数据,下一步我们要将爬取结果进一步进行相关数据操作。具体要求如下:

爬取电影列表数据:排名、标题、封面、是否可播放、导演、主演、发行日期、国家地区、类型、评分、评价人数并且存入到movie.csv文件中。

子任务二:数据处理

现已从相关网站及平台获取到原始数据集,为保障用户隐私和行业敏感信息,已进行数据脱敏。数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况、不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号等个人信息都需要进行数据脱敏。

相关数据文件中已经包含了数据采集阶段从豆瓣电影 Top 250网站上爬取的数据集,你的小组需要通过编写代码或脚本完成对相关数据文件中电影数据的清洗和整理。

请使用pandas库加载并分析相关数据集,根据题目规定要求使用pandas库实现数据处理,具体要求如下:

  1. 删除movie2.csv中删除可观看字段(is_playable)为false的数据并且存入movie2_c1_N.csv,N为删除的数据条数;
  2. 删除movie2.csv中删除数据源中删除演员数(actor_count)大于30的数据记录并且存入movie2_c2_N.csv,N为删除对应记录后剩余的数据条数;
  3. 将movie2.csv中国家和地区(regions)字段为多个国家和地区,将其设为该字段的第一个国家或地区值并且存入movie2_c3.csv;

将movie2.csv中观看数量(vote_count)统一设置为平均观看数(取整)并且存入movie2_c4_N.csv,N为平均观看数。

  • 13
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
中职大数据技术与应用是指在中等职业教育阶段,对大数据技术进行教学和培养学生相关应用能力的一门课程。大数据技术在中职教育中的应用主要包括以下几个方面: 1. 理论知识教学:中职大数据技术与应用课程会教授学生大数据的基本概念、原理和技术体系,包括数据采集、数据存储、数据处理和数据分析等方面的知识。 2. 技术实践训练:学生将通过实际操作来学习大数据技术的应用,例如使用Hadoop等大数据处理框架进行数据处理和分析,使用数据可视化工具展示分析结果等。 3. 应用案例研究:中职大数据技术与应用课程会引入一些实际应用案例,让学生了解大数据技术在不同领域的应用,如电商推荐系统、交通路况分析等。 4. 实习实训机会:为了提高学生的实际操作能力,中职教育机构可能会与企业合作,为学生提供实习实训机会,让他们在真实的大数据应用场景中进行实践。 通过中职大数据技术与应用的学习,学生可以获得大数据技术的基础知识和实际应用能力,为他们未来从事与大数据相关的职业打下坚实的基础。\[1\]\[2\]\[3\] #### 引用[.reference_title] - *1* *2* *3* [教育大数据的核心技术、应用现状与发展趋势](https://blog.csdn.net/weixin_34150830/article/details/89729057)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值