24个数据科学项目

数据科学项目为你在这个领域的深入研究提供了一个基础。通过实际应用,你不仅可以学习数据科学,也能够写在简历中提升你的资历。在这上边花费的时间越多,你学到的知识就越多。

640?wx_fmt=jpeg

初级——这部分的数据集很容易处理,使用基础的回归/分类算法就可以处理这些数据集。并且,这些数据集有足够的教程供你学习。

中级——略微有点难度。包含了需要使用有点难度的模式识别技能来处理的大中型数据集。另外,特征工程在这里可以发挥作用了。

高级——包括神经网络、深度学习、推荐系统及高维数据等。

初级

1.Iris Data数据集(花的类别识别)

640?wx_fmt=png

Iris Data Set可能是模式识别领域学习分类技术最基本入门级的数据集,适合初学者。该数据集里面包含了150行4列个数据。

问题: 根据已有特征预测花的类别。

资源:

数据集:https://archive.ics.uci.edu/ml/datasets/Iris?spm=a2c4e.11153940.blogcont603256.5.333b1d6f05ZggC

教程:http://www.slideshare.net/thoi_gian/iris-data-analysis-with-r?spm=a2c4e.11153940.blogcont603256.6.333b1d6f05ZggC

2.Loan Prediction 数据集(贷款预测)

640?wx_fmt=jpeg

它是保险领域最常引用的一个数据集。利用这个数据集,你可以充分体验到如何处理保险公司的数据,包括会遇到哪些挑战、需要什么策略、哪些变量会影响结果等。这是一个分类问题,数据集包含615行13列个数据。

问题: 预测一个贷款是否能够被批准。

资源:

数据集:https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/?spm=a2c4e.11153940.blogcont603256.7.333b1d6fYOsiOK

教程:https://www.analyticsvidhya.com/blog/2016/01/complete-tutorial-learn-data-science-python-scratch-2/?spm=a2c4e.11153940.blogcont603256.8.333b1d6fYOsiOK

  1. Bigmart Sales 数据集(零售业销售)

640?wx_fmt=png

零售业是另一个充分利用数据分析优化商业流程的行业。我们可以利用数据科学对商品的放置、库存管理、定制供应、商品捆绑等任务进行巧妙的处理。该数据集包含了商店的交易数据,是一个回归问题,共包含8523行12列个数据。

问题:预测销量。

资源:

数据集:https://datahack.analyticsvidhya.com/contest/practice-problem-big-mart-sales-iii/?spm=a2c4e.11153940.blogcont603256.9.333b1d6fYOsiOK

教程: https://www.analyticsvidhya.com/blog/2016/02/bigmart-sales-solution-top-20/?spm=a2c4e.11153940.blogcont603256.10.333b1d6fYOsiOK

4. Boston Housing 数据集(波士顿房屋)

640?wx_fmt=png

这是另一个模式识别领域较为常见的数据集,来自于波士顿的房地产业,是一个回归问题,数据集有506行14列个数据。这个数据集并不大,你可以尝试使用任何技术,而不用担心笔记本的内存不够。

问题:预测业主拥有房屋数量的中间值。

资源:

数据集:https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html?spm=a2c4e.11153940.blogcont603256.11.333b1d6fYOsiOK

教程:https://www.analyticsvidhya.com/blog/2015/11/started-machine-learning-ms-excel-xl-miner/?spm=a2c4e.11153940.blogcont603256.12.333b1d6fYOsiOK

  1. Time Series Analysis数据集(时间序列分析)

640?wx_fmt=png

时间序列是数据科学中最常用的技术之一,具有广泛的应用:预测天气预报、预测销售额、分析逐年趋势等。该数据集特定于时间序列,这里面临的挑战是预测交通方式。

问题:预测新的交通工具的交通。

资源:

数据集: https://datahack.analyticsvidhya.com/contest/practice-problem-time-series-2/?spm=a2c4e.11153940.blogcont603256.13.333b1d6fYOsiOK

教程:https://trainings.analyticsvidhya.com/courses/course-v1:AnalyticsVidhya+TS_101+TS_term1/about?spm=a2c4e.11153940.blogcont603256.14.333b1d6fYOsiOK

  1. Wine Quality数据集(酒质量)

640?wx_fmt=png

这是初学者最常用的数据集之一,分成了2个数据集。在这个数据集上可以同时执行回归和分类任务——异常值检测、特征选择和不平衡数据。该数据集有4898行和12列个数据。

问题:预测酒的质量。

资源:

数据集: https://archive.ics.uci.edu/ml/datasets/Wine+Quality?spm=a2c4e.11153940.blogcont603256.15.333b1d6fYOsiOK

教程:https://archive.ics.uci.edu/ml/datasets/Wine+Quality?spm=a2c4e.11153940.blogcont603256.15.333b1d6fYOsiOK

7. Turkiye Student Evaluation 数据集(学生课程评估)

640?wx_fmt=png

该数据集基于学生填写不同课程的评估表,拥有不同的属性,包括出勤率、难度、分数等,是一个无监督学习问题。该数据集有5820行33列个数据。

问题:使用分类和聚类解决问题。

资源:

数据集 : https://archive.ics.uci.edu/ml/datasets/Wine+Qualityhttps:/archive.ics.uci.edu/ml/datasets/Turkiye+Student+Evaluation?spm=a2c4e.11153940.blogcont603256.17.333b1d6fYOsiOK

教程: https://sanghosuh.github.io/research/LA_EdMining_SanghoSuh.pdf?spm=a2c4e.11153940.blogcont603256.18.333b1d6fYOsiOK&file=LA_EdMining_SanghoSuh.pdf

8.Heights and Weights 数据集(身高体重预测)

640?wx_fmt=png

这是一个相当直接的回归问题,非常适合新手。该数据集有25,000行3列(索引、高度和权重)个数据。

问题:预测一个人的身高或体重。

资源:

数据集:http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_Dinov_020108_HeightsWeights?spm=a2c4e.11153940.blogcont603256.19.333b1d6fYOsiOK

教程:https://www3.nd.edu/~steve/computing_with_data/2_Motivation/motivate_ht_wt.html?spm=a2c4e.11153940.blogcont603256.20.333b1d6fYOsiOK

中级

  1. Black Friday数据集(黑色星期五)

640?wx_fmt=png

这是一个包含零售商店记录的销售交易的经典数据集,可以扩展特征工程的技能,并从每天的购物经验中对其进行理解,是一个回归问题。该数据集有550,069行12列个数据。

问题:预测购买力。

教程:

数据集:https://datahack.analyticsvidhya.com/contest/black-friday/?spm=a2c4e.11153940.blogcont603256.21.333b1d6fYOsiOK

教程:https://discuss.analyticsvidhya.com/t/black-friday-data-hack-reveal-your-approach/5986?spm=a2c4e.11153940.blogcont603256.22.333b1d6fYOsiOK

  1. Human Activity Recognition 数据集(人类活动识别)

640?wx_fmt=png

该数据集通过带有嵌入式惯性传感器的智能手收集了30个实验者的记录,可用于分类问题。数据集有10,299行561列个数据。

问题:预测人类活动的类别。

资源:

数据集:http://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones?spm=a2c4e.11153940.blogcont603256.23.333b1d6fYOsiOK

教程: https://rstudio-pubs-static.s3.amazonaws.com/291850_859937539fb14c37b0a311db344a6016.html?spm=a2c4e.11153940.blogcont603256.24.333b1d6fYOsiOK

  1. Text Mining数据集(文本挖掘)

640?wx_fmt=png

该数据集最初来自于2007年Siam文本挖掘竞赛,包括描述某些发生故障的航班的航空安全报告,是一个多分类和高维度问题。该数据集有21,519行30,438列个数据。

问题:根据文本标签对文本进行分类。

资源:

数据集:https://yq.aliyun.com/articles/603256?spm=a2c4e.11153959.0.0.112a2dc6bqmpJ9#siam-competition2007

教程:https://wtlab.um.ac.ir/images/e-library/text_mining/Survey of Text Mining 2 .pdf?spm=a2c4e.11153940.blogcont603256.26.333b1d6fYOsiOK&file=Survey of Text Mining 2 .pdf

  1. Trip History数据集(旅行历史)

640?wx_fmt=png

此数据集来自美国的共享自行车服务。该数据集需要使用专业的数据处理技术,该数据集种的数据是从2010年第四季度开始按季度记录的。每个文件有7列是一个分类问题。

问题:预测用户的类别。

资源:

数据集:https://www.capitalbikeshare.com/trip-history-data?spm=a2c4e.11153940.blogcont603256.27.333b1d6fYOsiOK

教程:https://www.analyticsvidhya.com/blog/2015/06/solution-kaggle-competition-bike-sharing-demand/?spm=a2c4e.11153940.blogcont603256.28.333b1d6fYOsiOK

  1. Million Song数据集(预测歌曲发行时间)

640?wx_fmt=png

你知道数据科学现在也用于娱乐行业吗?这个数据集提出了一个回归任务,由515,345个观察值和90个变量组成。但是,这仅仅是原始数据库(约一百万首歌曲)中的一小部分。

问题:预测歌曲的发行时间。

资源:

数据集 :http://archive.ics.uci.edu/ml/datasets/YearPredictionMSD?spm=a2c4e.11153940.blogcont603256.29.333b1d6fYOsiOK

教程:http://www-personal.umich.edu/~yjli/content/projectreport.pdf?spm=a2c4e.11153940.blogcont603256.30.333b1d6fYOsiOK&file=projectreport.pdf

6.Census Income数据集(预测人口收入)

640?wx_fmt=png

这是一个经典的不平衡分类机器学习问题。现在,机器学习广泛应用于正被广泛用于解决不平衡问题,如癌症检测、欺诈检测等。该数据集有48,842行14列个数据。

问题:预测美国人的收入水平。

资源:数据集:http://archive.ics.uci.edu/ml/machine-learning-databases/census-income-mld/?spm=a2c4e.11153940.blogcont603256.31.333b1d6fYOsiOK

教程:https://cseweb.ucsd.edu/~jmcauley/cse190/reports/sp15/048.pdf?spm=a2c4e.11153940.blogcont603256.32.333b1d6fYOsiOK&file=048.pdf

  1. Movie Lens数据集(电影推荐系统)

640?wx_fmt=png

用于构建推荐系统,该数据集是数据科学行业中最受欢迎的“数据集”之一,有不同大小的数据集。这里有一个较小的数据集,包含4,000部电影,6000个用户的100万个收视率。

问题:为用户推荐电影。

资源:

数据集:http://grouplens.org/datasets/movielens/1m/?spm=a2c4e.11153940.blogcont603256.33.333b1d6fYOsiOK

教程:https://www.analyticsvidhya.com/blog/2016/06/quick-guide-build-recommendation-engine-python/?spm=a2c4e.11153940.blogcont603256.34.333b1d6fYOsiOK

  1. Twitter Classification数据集(预测推文)

640?wx_fmt=png

Twitter数据已成为情感分析不可分割的一部分。该数据集大小为3MB,包含31,962条推文。

问题:预测哪些推文是令人讨厌的,哪些不是。

资源:

数据集:https://datahack.analyticsvidhya.com/contest/practice-problem-twitter-sentiment-analysis/?spm=a2c4e.11153940.blogcont603256.35.333b1d6fYOsiOK

教程:https://github.com/abdulfatir/twitter-sentiment-analysis?spm=a2c4e.11153940.blogcont603256.36.333b1d6fYOsiOK

高级

1.识别数字的数据集

640?wx_fmt=png

用于研究、分析和识别图像中的元素,这就是使用相机识别面部的技术,属于数字识别问题。该数据集有28,000个28*28大小的图像,总计31MB。

问题:从图像中识别数字。

资源:

数据集:https://datahack.analyticsvidhya.com/contest/practice-problem-identify-the-digits/?spm=a2c4e.11153940.blogcont603256.37.333b1d6fYOsiOK

教程:https://www.analyticsvidhya.com/blog/2016/10/an-introduction-to-implementing-neural-networks-using-tensorflow/?spm=a2c4e.11153940.blogcont603256.38.333b1d6fYOsiOK

2.城市声音分类

640?wx_fmt=png

该项目旨在介绍常用的音频分类问题。该数据集由10个类别(包含来自8,732个城市声音的记录)组成。

问题:对音频进行分类。

资源:

数据集:https://datahack.analyticsvidhya.com/contest/practice-problem-urban-sound-classification/?spm=a2c4e.11153940.blogcont603256.39.333b1d6fYOsiOK

教程:https://www.analyticsvidhya.com/blog/2017/08/audio-voice-processing-deep-learning/?spm=a2c4e.11153940.blogcont603256.40.333b1d6fYOsiOK

  1. Vox名人数据集

640?wx_fmt=png

音频处理正迅速成为深度学习的重要领域,因此这是另一个具有挑战性的问题。此数据集收集了大型演讲者的演讲,并从YouTube中提取的名人的讲话。对于语音识别来说,这是一个很有趣的项目。该数据集包含1,251位名人发表的100,000条言论。

问题:找出声音属于哪个名人。

资源:

数据集:http://www.robots.ox.ac.uk/~vgg/data/voxceleb/?spm=a2c4e.11153940.blogcont603256.41.333b1d6fYOsiOK

教程:https://www.robots.ox.ac.uk/~vgg/publications/2017/Nagrani17/nagrani17.pdf?spm=a2c4e.11153940.blogcont603256.42.333b1d6fYOsiOK&file=nagrani17.pdf

  1. ImageNet数据集

640?wx_fmt=png

ImageNet提供了各种各样的问题,包括对象检测、定位、分类和屏幕分析。 所有的图像都是免费的,你可以搜索任何类型的图像来构建项目。截至目前,该数据集拥有超过1500万张图片,大小超过140GB。

问题:要解决的问题会受下载图像的类型影响。

资源:

数据集:http://image-net.org/download-imageurls?spm=a2c4e.11153940.blogcont603256.43.333b1d6fYOsiOK

教程:http://image-net.org/download-imageurls?spm=a2c4e.11153940.blogcont603256.44.333b1d6fYOsiOK

5.芝加哥犯罪数据集

640?wx_fmt=jpeg

现在,每个数据科学家都希望能够处理大型数据集,是一个多分类问题。该数据集在本地提供了处理大型数据集所需的实践经验。问题很简单,但数据管理是关键!这个数据集有6,000,000个观测值。

问题:预测犯罪类型。

资源:

数据集:https://data.cityofchicago.org/Public-Safety/Crimes-2001-to-present/ijzp-q8t2?spm=a2c4e.11153940.blogcont603256.45.333b1d6fYOsiOK

教程:https://yq.aliyun.com/nathanwayneholt.com/mathematicalmodeling/ChicagoCrimesReport.pdfaceholder?spm=a2c4e.11153940.blogcont603256.46.333b1d6fYOsiOK&file=ChicagoCrimesReport.pdfaceholder

6.印度演员年龄检测

640?wx_fmt=jpeg

对于任何深度学习爱好者来说,这是一个令人着迷的挑战。该数据集包含数千个印度演员的图像,用来预测其年龄。所有图像都是人工手动从视频帧中选取的,这就导致了尺度、姿势、表情、照明、年龄、分辨率、遮挡和化妆等的高度可变性。训练集中有19,906幅图像,测试集中有6,636幅图像。

问题:预测演员的年龄。

资源:

数据集:http://image-net.org/download-imageurls?spm=a2c4e.11153940.blogcont603256.47.333b1d6fYOsiOK

教程:https://www.analyticsvidhya.com/blog/2017/06/hands-on-with-deep-learning-solution-for-age-detection-practice-problem/?spm=a2c4e.11153940.blogcont603256.48.333b1d6fYOsiOK

7.推荐引擎数据集

640?wx_fmt=png

这是一项高级推荐系统挑战赛。在这个项目中,你会得到以前解决的程序和数据,以及解决特定问题的时间。作为一名数据科学家,你构建的模型将协助在线评委决定向用户推荐的下一级问题。

问题:根据用户的当前状态,预测解决问题所需要的时间。

资源:

数据库:https://datahack.analyticsvidhya.com/contest/practice-problem-recommendation-engine/?spm=a2c4e.11153940.blogcont603256.49.333b1d6fYOsiOK

8. VisualQA数据集

640?wx_fmt=jpeg

VisualQA是一个包含图像的开放式问题数据集。这些问题需要理解计算机视觉和语言,这些问题有一个自动评估指标。数据集包含265,016张图片,每张图片3个问题,且每个问题有10个标记好的答案。

问题:使用深度学习回答有关图像的开放式问题。

资源:

数据集:http://www.visualqa.org/?spm=a2c4e.11153940.blogcont603256.50.333b1d6fYOsiOK

教程:https://arxiv.org/abs/1708.02711?spm=a2c4e.11153940.blogcont603256.51.333b1d6fYOsiOK&file=1708.02711

总结
在上面列出的24个数据集中,你应该首先找到与自身技能相匹配的数据集进行实践和练习。比如说,假如你是一位初学者,请先从初级数据集开始实践,而不是直接从高级数据集开始练习。@TOC

欢迎使用Markdown编辑器

你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。

新的改变

我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:

  1. 全新的界面设计 ,将会带来全新的写作体验;
  2. 在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样式 进行展示;
  3. 增加了 图片拖拽 功能,你可以将本地的图片直接拖拽到编辑区域直接展示;
  4. 全新的 KaTeX数学公式 语法;
  5. 增加了支持甘特图的mermaid语法1 功能;
  6. 增加了 多屏幕编辑 Markdown文章功能;
  7. 增加了 焦点写作模式、预览模式、简洁写作模式、左右区域同步滚轮设置 等功能,功能按钮位于编辑区域与预览区域中间;
  8. 增加了 检查列表 功能。

功能快捷键

撤销:Ctrl/Command + Z
重做:Ctrl/Command + Y
加粗:Ctrl/Command + B
斜体:Ctrl/Command + I
标题:Ctrl/Command + Shift + H
无序列表:Ctrl/Command + Shift + U
有序列表:Ctrl/Command + Shift + O
检查列表:Ctrl/Command + Shift + C
插入代码:Ctrl/Command + Shift + K
插入链接:Ctrl/Command + Shift + L
插入图片:Ctrl/Command + Shift + G

合理的创建标题,有助于目录的生成

直接输入1次#,并按下space后,将生成1级标题。
输入2次#,并按下space后,将生成2级标题。
以此类推,我们支持6级标题。有助于使用TOC语法后生成一个完美的目录。

如何改变文本的样式

强调文本 强调文本

加粗文本 加粗文本

标记文本

删除文本

引用文本

H2O is是液体。

210 运算结果是 1024.

插入链接与图片

链接: link.

图片: Alt

带尺寸的图片: Alt

居中的图片: Alt

居中并且带尺寸的图片: Alt

当然,我们为了让用户更加便捷,我们增加了图片拖拽功能。

如何插入一段漂亮的代码片

博客设置页面,选择一款你喜欢的代码片高亮样式,下面展示同样高亮的 代码片.

// An highlighted block
var foo = 'bar';

生成一个适合你的列表

  • 项目
    • 项目
      • 项目
  1. 项目1
  2. 项目2
  3. 项目3
  • 计划任务
  • 完成任务

创建一个表格

一个简单的表格是这么创建的:

项目Value
电脑$1600
手机$12
导管$1

设定内容居中、居左、居右

使用:---------:居中
使用:----------居左
使用----------:居右

第一列第二列第三列
第一列文本居中第二列文本居右第三列文本居左

SmartyPants

SmartyPants将ASCII标点字符转换为“智能”印刷标点HTML实体。例如:

TYPEASCIIHTML
Single backticks'Isn't this fun?'‘Isn’t this fun?’
Quotes"Isn't this fun?"“Isn’t this fun?”
Dashes-- is en-dash, --- is em-dash– is en-dash, — is em-dash

创建一个自定义列表

Markdown
Text-to- HTML conversion tool
Authors
John
Luke

如何创建一个注脚

一个具有注脚的文本。2

注释也是必不可少的

Markdown将文本转换为 HTML

KaTeX数学公式

您可以使用渲染LaTeX数学表达式 KaTeX:

Gamma公式展示 Γ ( n ) = ( n − 1 ) ! ∀ n ∈ N \Gamma(n) = (n-1)!\quad\forall n\in\mathbb N Γ(n)=(n1)!nN 是通过欧拉积分

Γ ( z ) = ∫ 0 ∞ t z − 1 e − t d t   . \Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,. Γ(z)=0tz1etdt.

你可以找到更多关于的信息 LaTeX 数学表达式here.

新的甘特图功能,丰富你的文章

Mon 06 Mon 13 Mon 20 已完成 进行中 计划一 计划二 现有任务 Adding GANTT diagram functionality to mermaid
  • 关于 甘特图 语法,参考 这儿,

UML 图表

可以使用UML图表进行渲染。 Mermaid. 例如下面产生的一个序列图::

张三 李四 王五 你好!李四, 最近怎么样? 你最近怎么样,王五? 我很好,谢谢! 我很好,谢谢! 李四想了很长时间, 文字太长了 不适合放在一行. 打量着王五... 很好... 王五, 你怎么样? 张三 李四 王五

这将产生一个流程图。:

链接
长方形
圆角长方形
菱形
  • 关于 Mermaid 语法,参考 这儿,

FLowchart流程图

我们依旧会支持flowchart的流程图:

Created with Raphaël 2.2.0 开始 我的操作 确认? 结束 yes no
  • 关于 Flowchart流程图 语法,参考 这儿.

导出与导入

导出

如果你想尝试使用此编辑器, 你可以在此篇文章任意编辑。当你完成了一篇文章的写作, 在上方工具栏找到 文章导出 ,生成一个.md文件或者.html文件进行本地保存。

导入

如果你想加载一篇你写过的.md文件或者.html文件,在上方工具栏可以选择导入功能进行对应扩展名的文件导入,
继续你的创作。


  1. mermaid语法说明 ↩︎

  2. 注脚的解释 ↩︎

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值