14个超有趣的数据分析项目,数据集都给你整理好啦(建议收藏)

对于那些对数据,数据分析或数据科学感兴趣的人,提供一份可以利用业余时间完成的数据科学项目清单,一共14个!

项目分为三种类型:

  • 可视化项目

  • 探索性数据分析(EDA)项目

  • 预测建模

可视化项目

最容易上手的就是数据可视化, 以下3个数据集可以用于创建一些有意思的的可视化效果并加到你的简历中。

 

1. 新冠病毒可视化

学习如何使用Plotly构建动态可视化数据,展示冠状病毒是如何在全球范围内传播的。Plotly很好用,它可以做动态可视化,好看且操作简单。

图片

 

难易程度:

数据集:

https://www.kaggle.com/sudalairajkumar/novel-corona-virus-2019-dataset

教程:

https://towardsdatascience.com/visualizing-the-coronavirus-pandemic-with-choropleth-maps-7f30fccaecf5

 

2. 澳洲大火数据可视化

2019-2020年的丛林大火季,也称为黑色夏天,由2019年6月开始的几场极端野火组成的。据维基百科统计,这场大火烧毁了约1,860万公顷的土地和5,900多座建筑物。

这是一个有趣的项目,可以利用Plotly或Matplotlib数据可视化工具来可视化野火的规模和对地理的影响。

难易程度:

数据集:

https://www.kaggle.com/carlosparadis/fires-from-space-australia-and-new-zeland

 

3. 地表温度可视化

图片

你是否怀疑过全球变暖的观点?创建一些数据可视化效果,显示地球表面温度如何随时间变化,并可以通过创建折线图或其他动画的Choropleth贴图来实现!也可以创建一个预测模型来预测未来五十年内地球的温度。

难易程度:⭐⭐

数据集:

https://www.kaggle.com/berkeleyearth/climate-change-earth-surface-temperature-data/kernels

很多人学习python,不知道从何学起。
很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。
很多已经做案例的人,却不知道如何去学习更加高深的知识。
那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码!
QQ群:810735403

 

探索性数据分析项目

探索性数据分析(EDA),也称为数据挖掘,意思是数据分析过程中使用了多种技术来更好理解数据。

 

1. 纽约Airbnb数据挖掘

自2008年以来,Airbnb使游客和房东出行更方便,提出更多个性化的体验世界的方式。该数据集包含有关2019年纽约出租的信息以及包含其地理信息,价格,评论数量等。

图片

可以分析的一些角度如下:

  • 哪些区域生意最好,为什么?

  • 哪些区域的流量比其他区域大,为什么?

  • 价格,评论数量和预订天数之间是否存在一些关系?

难易程度:⭐⭐⭐

数据集:

https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data

 

2. 哪些因素与员工离职和绩效有关

IBM公开了一个综合数据集,可以使用它来了解各种因素如何影响员工的流失率和满意度。一些变量包括教育程度,工作相关性,绩效评估和工作生活平衡程度等。

图片

分析此数据集,找到任何确实影响员工满意度的变量,另外,还可以看看是否可以对变量进行重要程度排名。

难易程度:

数据集:

https://www.kaggle.com/pavansubhasht/ibm-hr-analytics-attrition-dataset

3. 世界大学排名

你认为你的国家拥有世界上最好的大学吗?成为“最好”大学的衡量标准是什么?该数据集包含三个全球大学排名方式。使用此数据,你是否可以回答以下问题:

  • 顶尖的大学都在哪些国家?

  • 决定世界排名的主要因素是什么?

图片

难易程度:

数据集:

https://www.kaggle.com/mylesoneill/world-university-rankings

 

4. 饮酒与在校表现

喝酒会影响学生的成绩吗?如果不会,那有什么别的影响吗?这个数据是从中学数学和葡萄牙语课程的学生进行的一项调查中获得的。它包含几个变量,例如饮酒量,家庭人数,参与课外活动。

利用这些数据,挖掘学校成绩与各种因素之间的关系。另外,看看是否可以根据其他变量来预测学生的成绩!

难易程度:

数据集:

https://www.kaggle.com/uciml/student-alcohol-consumption

 

5. 宠物小精灵数据挖掘

对所有游戏玩家来说,这是一个包含来自七代802个 Pokemon的信息数据集。试着回答以下几个问题!

  • 哪一代宠物小精灵最强?哪代最弱?

  • 哪种类型神奇宝贝最强?哪种最弱?

  • 能否建立分类器来识别神奇宝贝?

  • 身体特征与力量状态(进攻,防守,速度等)之间是否有相关性?

图片

难易程度:

数据集:

https://www.kaggle.com/rounakbanik/pokemon

6. 探索影响预期寿命的因素

世卫组织建立了一段时间内所有国家健康状况的数据集,其中包括预期寿命,成人死亡率等方面的统计数据。使用此数据集,探索各种变量之间的关系,预测对预期寿命的最大影响因素是什么?

请尝试回答以下问题:

  • 最初选择的各种预测因素是否真的影响预期寿命?实际影响预期寿命的预测变量有哪些?

  • 预期寿命值低于(<65)的国家是否应该增加其医疗保健支出以改善其平均寿命?

  • 婴儿和成人死亡率如何影响预期寿命?

  • 预期寿命与饮食习惯,生活方式,运动,吸烟,饮酒等是正相关还是负相关?

  • 是否接受教育对人类寿命有何影响?

  • 预期寿命与饮酒是正相关还是负相关?

  • 人口稠密的国家的预期寿命是否有降低的趋势?

  • 免疫覆盖率对预期寿命有什么影响?

难易程度:

数据集:

https://www.kaggle.com/kumarajarshi/life-expectancy-who

 

预测模型

1. 能源消耗的时间序列预测

图片

该数据集由美国区域传输组织PJM网站上的功耗数据组成,使用此数据集,查看是否可以构建时间序列模型来预测能耗。除此之外,还可以查看是否可以找到一天中每个小时的趋势,假日用电量以及长期趋势!

难易程度:⭐⭐⭐⭐

数据集:

https://www.kaggle.com/robikscube/hourly-energy-consumption

 

2. 贷款预测

图片

该数据集取自Analytics Vidhya,包括 615行和13列有关已批准和尚未批准的历史贷款信息。你是否可以创建一个模型来预测贷款是否会获批。

难易程度:

数据集:

https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/

 

3. 二手车价格计算器

图片

Craigslist是全球最大的二手车经销商,该数据集由Craigslist的抓取数据组成,每隔几个月更新一次。使用此数据集,查看是否可以创建一个数据集来预测一辆汽车价格是否被高估或低估了。

难易程度:⭐⭐⭐

数据集:

https://www.kaggle.com/austinreese/craigslist-carstrucks-data

 

4. 信用卡欺诈检测

图片该数据集显示了两天内发生的交易,其中284,807笔交易中有492笔欺诈。数据高度正态分布,欺诈占所有交易的0.172%。学习如何使用不正态的数据集并建立信用卡欺诈检测模型。

难易程度:⭐⭐⭐⭐

数据集:

https://www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets

 

5. 皮肤癌图像检测

图片

通过10,000多张图像来构建神经网络来检测皮肤癌。这绝对是最难的项目,需要有关神经网络和图像识别的储备知识。

难易程度:⭐⭐⭐⭐⭐

数据集:

https://www.kaggle.com/kmader/skin-cancer-mnist-ham10000

在这里还是要推荐下我自己建的Python开发交流学习(qq)群:810735403,群里都是学Python开发的,如果你正在学习Python ,欢迎你加入,大家都是软件开发党,不定期分享干货(只有Python软件开发相关的),包括我自己整理的一份2021最新的Python进阶资料和高级开发教程,欢迎进阶中和想深入Python的小伙伴!

### 如何从服务器下载数据集 当需要从服务器下载大型数据集时,可以采用多种方式完成这一操作。以下是几种常见的方法及其具体实现。 #### 方法一:使用 FTP 客户端工具 为了通过 FTP 协议下载数据集,需先准备好一个合适的 FTP 客户端软件[^1]。确保选择的是客户端版本而非服务端版本。安装完成后,按照以下步骤执行: 1. 打开 FTP 客户端并输入目标服务器的 IP 地址或域名。 2. 使用官方提供的账号密码登录(如果需要认证的话)。 3. 寻找指定的数据集路径,并将其拖拽至本地存储位置即可开始下载。 对于非常庞大的文件集合来说,这种方法可能更加稳定可靠。 #### 方法二:利用浏览器直接访问链接 某些情况下可以直接通过网页浏览器来获取资源。特别是针对那些提供了明确 HTTP 或者 FTP URL 的场景下尤为适用[^2]。只需打开相应页面找到对应的下载按钮或者手动粘贴地址栏启动进程就好啦! 不过需要注意的是,这种方式可能会受到网络状况影响较大,在面对几百GB级别的资料转移过程中容易出现问题中断等情况发生;因此建议优先考虑其他更专业的手段来进行此类任务处理工作。 #### 方法三:基于命令行工具 `wget` 和日志监控功能 另一种高效的方法是借助 Linux 终端内的强大工具——`wget` 来完成自动化批量抓取作业[^3]。其基本语法结构如下所示: ```bash wget --continue -O dataset.tar.gz ftp://example.com/path/to/dataset.tar.gz ``` 上述指令中的参数解释: - `--continue`: 如果之前尝试失败,则继续未完成的部分而不是重新开始整个过程; - `-O`: 指定保存后的名称以及格式,默认会依据远端实际命名情况决定最终产出物形式。 另外还可以配合 `tail -f wget-log` 命令实时查看正在进行状态下的详细进展信息。 #### 方法四:结合 SSH 远程连接与 Python 脚本定制化解决方案 假如已经建立了稳定的 Xshell/Xftp 链接通往远程主机环境之中[^4],那么完全可以编写一段简单的 Python 程序进一步简化流程控制逻辑。例如下面这段示范代码展示了如何调用 paramiko 库建立 SFTP 通道从而实施跨平台间的大规模迁移活动: ```python import os from pathlib import Path import paramiko def download_file(sftp, remote_path, local_path): """Download a single file.""" try: sftp.get(remote_path, str(local_path)) print(f"Successfully downloaded {local_path}") except Exception as e: print(e) if __name__ == "__main__": hostname = 'your.server.ip' port = 22 username = 'your_username' password = 'your_password' transport = paramiko.Transport((hostname, port)) transport.connect(username=username, password=password) with paramiko.SFTPClient.from_transport(transport) as sftp: remote_dir = '/path/on/server/' local_dir = './downloaded_data/' # Ensure the directory exists locally. Path(local_dir).mkdir(parents=True, exist_ok=True) files_to_download = ['file1', 'file2'] for f in files_to_download: remote_f = os.path.join(remote_dir, f) local_f = os.path.join(local_dir, f) if not os.path.exists(local_f): download_file(sftp, remote_f, local_f) transport.close() ``` 此脚本首先定义了一个辅助函数用于单个文件传输操作,接着设置必要的连接属性并通过循环逐一检索待处理项目清单直至全部结束为止。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值