Azure机器学习入门(三)创建Azure机器学习实验



  1. 下载、处理和上传收入普查的数据集;
  2. 创建一个新的Azure机器学习实验;
  3. 训练和评价一个预测模型;

从公共资源库下载数据集

 

在开发预测分析收入水平模型时,我们使用UCI 机器学习资源库的成人收入普查数据。数据集地下载链接为http://archive.ics.uci.edu/ml/datasets/Census+Income该网站包含下载数据文件的链接,您可将adult.data数据文件下载到本地计算机。此数据集的格式以逗号分隔。另外,该网站还包含了在此数据集中的 15 个属性信息,在上传数据至实验之前我们使用此信息作为创建数据表的列标题。

现在,用 Microsoft Excel 或任何其他电子表格工具中打开 adult.data 文件,并为其添加网站中属性列表的详细信息,这些信息如下列出。注意,其中的一部分属性值为连续的,因为它们以数值的形式表现,另一部分则为其选项值列表。

  • 年龄(age),连续值
  • 工作种类(Workclass)个人(Private), 无限责任公司(Self-emp-not-inc), 有限责任公司(Self-emp-inc), 联邦政府(Federal-gov), 地方政府( Local-gov), 州政府(State-gov), 无薪人员(Without-pay), 无工作经验人员(Never-worked)离散值
  • Fnlwgt连续值
  • 教育情况(Education Bachelors, Some-college, 11th, HS-grad, Prof-school, Assoc-acdm, Assoc-voc, 9th, 7th-8th, 12th, Masters, 1st-4th, 10th, Doctorate, 5th-6th, Preschool )离散值
  • 受教育年限(Education-num ),连续值
    • 婚姻状况(Marital-status 已婚(Married-civ-spouse),离婚(Divorced),未婚(Never-married),离异(Separated),丧偶(Widowed),已婚配偶缺席(Married-spouse-absent)、 再婚(Married-AF-spouse),离散值
  • 职业情况(Occupation技术支持Tech-support),维修工艺(Craft-repair),服务行业(Other-service)、 销售(Sales)、 执行管理(Exec-managerial)、 专业教授(Prof-specialty),清洁工(Handlers-cleaners),机床操控人员(Machine-op-inspct)、 行政文员(Adm-clerical)、 养殖渔业(Farming-fishing)、 运输行业(Transport-moving),私人房屋服务(Priv-house-serv),保卫工作(Protective-serv), 武装部队(Armed-Forces)职业情况,离散值
  • 亲属情况(Relationship)妻子(Wife),子女(Own-child),丈夫(Husband),外来人员(Not-in-family)、 其他亲戚(Other-relative)、 未婚(Unmarried),离散值
  • 种族肤色(Race)白人(White),亚洲太平洋岛民(Asian-Pac-Islander),阿米尔-印度-爱斯基摩人(Amer-Indian-Eskimo)、 其他(Other),黑人(Black)离散值
  • 性别(Sex )男性(Female,女性( Male),离散值
  • 资本盈利(Capital-gain 连续值
  • 资本损失(Capital-loss ,连续值
  • 每周工作时间(Hours-per-week ),连续值
  • 国籍(Native-country 美国United-States)、 柬埔寨(Cambodia)、 英国(England),波多黎各(Puerto-Rico),加拿大(Canada),德国(Germany),美国周边地区(关岛-美属维尔京群岛等)(Outlying-US(Guam-USVI-etc)),印度(India)、 日本(Japan)、 希腊(Greece)、 美国南部(South)、 中国(China)、 古巴(Cuba)、 伊朗(Iran)、 洪都拉斯(Honduras),菲律宾(Philippines)、 意大利(Italy)、 波兰(Poland)、 牙买加(Jamaica)、 越南(Vietnam)、 墨西哥(Mexico)、 葡萄牙(Portugal)、 爱尔兰(Ireland)、 法国(France)、多米尼加共和国(Dominican-Republic)、 老挝(Laos)、 厄瓜多尔(Ecuador)、 台湾(Taiwan)、 海地(Haiti)、 哥伦比亚(Columbia)、 匈牙利(Hungary)、 危地马拉(Guatemala)、 尼加拉瓜(Nicaragua)、苏格兰(Scotland)、 泰国(Thailand)、 南斯拉夫(Yugoslavia),萨尔瓦多(El-Salvador)、 特立尼达和多巴哥(Trinadad&Tobago)、 秘鲁(Peru),香港(Hong),荷兰(Holland-Netherlands)离散值
  • 收入 (incom) >50K, <=50K ,离散值

注意,在插入这些列的标题后,一定要以 .csv 格式保存,且保存时将文件命名为 Adult.data.csv 

下面,先总括一下第一个Azure机器学习实验的数据集的数据特征:

  • 十四个与结果相关的唯一属性
  • 数据集的实例数为 48,842
  • 预测任务是确定用户是否一年收入超过$50,000美元。

此人口收入的普查数据集以被微软作为一个样本数据提供出来了,在其成人普查收入的二元分类(Adult Census Income Binary Classification)数据集中便可以找到。以下我们将手动地一步步全面地介绍整个Azure机器学习工作流过程,很有可能,您的用于预测模型地真实数据集来自于其他外部资源,因此了解机器学习是怎么从开始至结束的全过程是很有必要的。

数据上载至Azure机器学习实验

 

将人口收入普查数据集添加了列标题后,我们即可将数据上载至Azure机器学习工作区,并将其纳入预测模型。点击屏幕左下方的"+",然后选择上传的数据集。下图显示上传本地数据文件的选项。

图 Azure机器学习中上载本地数据集文件的选项

下一步,点击从本地文件选择即"FROM LOCAL FILE",您可看见如下图所示的上载界面。在此界面您可指定上载文件的属性,比如文件的位置、名称(本例中我们使用 Adult.data.csv )和类型(通常是CSV类型),以及新的数据集的可选说明。

 Azure机器学习对话框,选择设定从本地文件上载新的数据集

完成信息的输入并点击签入按钮后,您的数据集将异步加载至您的第一个Azure机器学习实验的工作区中。

创建新的Azure机器学习实验

创建新的实验的方法是点击屏幕左下角的"+NEW"按钮,选择"实验"(EXPERIMENT)à "空白实验"(Blank Experiment)。

  • 3
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值