人工智能
文章平均质量分 92
JTZ001
大数据工程师
展开
-
04_使用决策树对银行贷款进行建模
使用决策树对银行贷款进行建模1、实验描述使用Python编程,输入为自定义数据集,分别为贷款对象的四个属性,年龄,是否有房,是否有工作,信用情况计算所有可能的特征的信息增益,选择最优的特征值划分数据集,进而递归地构建决策树。其中为了更加直观地呈现决策树,使用Matplotlib编程将决策树可视化。最后,根据训练好的决策树执行分类,判断银行是否贷款给相关用户。实验时长: 60 分钟主要步骤:使用Python选择最优特征递归构建决策树决策树的可视化使用决策树执行分类预测原创 2022-04-11 13:42:27 · 4322 阅读 · 0 评论 -
02_基于线性回归预测糖尿病
基于线性回归预测糖尿病1、实验描述使用Python编程,利用diabetesdataset,一个糖尿病数据集,主要包括442行数据,10个属性值,分别是:Age(年龄)、性别(Sex)、Bodymass index(体质指数)、Average BloodPressure(平均血压)、S1~S6一年后疾病级数指标。Target为一年后患疾病的定量指标。首先将数据集划分为训练集和测试集,创建线性回归模型,然后训练数据集,得到每个特征下的参数。绘图表示出真实值和预测值之间的对比。实验时长:35原创 2022-04-07 16:28:49 · 3655 阅读 · 0 评论 -
03_使用决策树预测隐形眼镜类型
使用决策树预测隐形眼镜类型1、实验描述使用Python编程,输入为隐形眼镜数据集,计算所有可能的特征的信息增益,选择最优的特征值划分数据集,进而递归地构建决策树。其中为了更加直观地呈现决策树,使用Matplotlib编程将决策树可视化。最后,根据训练好的决策树执行分类,预测患者需要佩戴的隐性眼镜类型。实验时长: 60分钟主要步骤:使用Python选择最优特征递归构建决策树决策树的可视化使用决策树执行分类预测2、实验环境Anaconda 4.3.30原创 2022-03-28 09:04:07 · 3912 阅读 · 0 评论 -
机器学习实践:足球比赛聚类分析--11
机器学习实践:足球比赛聚类分析1、实验描述本实验利用K-Means聚类分析算法对足球比赛结果进行分析,该算法通过Sprak Mllib库来调用,我们将学习K-Means算法的K值选取,聚类原理等内容,理解聚类算法在实际业务中的应用场景实验时长:45分钟主要步骤:KMeans算法简介Spark Mllib库简介数据准备代码编写2、实验环境虚拟机数量:1系统版本:CentOS 7.5Spark版本:spark-2.1.1-bin-hadoo原创 2022-01-21 10:41:08 · 3262 阅读 · 0 评论 -
机器学习实践:气象数据分析-10
机器学习实践:气象数据分析1、实验描述本节实验主要是针对气象数据进行分析,从实验数据中分析温度、湿度、风力、风向等数据,再利用matplotlib进行绘图,直观展示分析结果,通过本节实验我们能够直观感受到python数据分析在实战中的应用实验时长:90分钟主要步骤:数据准备温度随时间变化数据分析海洋距离对温度的影响分析海洋距离对温度的线性回归分析湿度随时间变化数据分析风向数据分析风力均值数据分析2、实验环境虚拟机数量:1系统原创 2022-01-20 15:02:29 · 6741 阅读 · 2 评论 -
机器学习实践:非监督学习的自编码器-9
机器学习实践:非监督学习自编码器1、实验描述利用非监督学习的自编码器,实现数据可视化降维实验时长:90分钟主要步骤:数据准备前向计算误差反向传播自编码器三层神经网络训练所需的参数结果展示2、实验环境虚拟机数量:1系统版本:CentOS 7.5Python版本: 2.7Scipy版本:1.1.0Numpy版本:1.15.1Matplotlib版本:2.2.33、相关技能vim文本编辑器Python 依赖原创 2022-01-13 12:03:34 · 626 阅读 · 0 评论 -
机器学习实践:非监督学习-8
机器学习实践:非监督学习1、实验描述本实验通过scikit-learn 工具包完成非监督学习的理解和使用,其中主要包括各种聚类分析算法及其分析能力的对比,使用PCA技术达到处理高维数据的能力等内容实验时长:90分钟主要步骤:非监督学习简介典型非监督学习之KMeans聚类分析多种聚类分析算法对比PCA降维实验2、实验环境虚拟机数量:1系统版本:CentOS 7.5Python版本: Python3.53、相关技能Python编原创 2022-01-11 14:40:49 · 1457 阅读 · 0 评论 -
机器学习实践:监督学习-7
机器学习实践:监督学习1、实验描述本实验通过scikit-learn工具包主要介绍了监督学习概念,并通过实验掌握监督学习中常见的回归和分类算法,理解分类和回归的区别,比较各类分类算法的优劣,能够理解调参在非线性分类中的重要性等内容实验时长:90分钟主要步骤监督学习简介广义线性回归模型简介最小二乘回归广义线性分类模型简介感知机支持向量机非线性支持向量机2、实验环境虚拟机数量:1系统版本:CentOS 7.5Python版原创 2022-01-09 14:05:37 · 1122 阅读 · 0 评论 -
机器学习实践:提取文章-6
机器学习实践:提取文章摘要1、实验描述本实验利用自然语言处理提取新闻摘要:“关键字提取”算法和TextRank算法完成新闻摘要提取,旨在理解这两种算法的摘要原理和代码逻辑,从而掌握能够对自然语言文件进行处理的能力实验时长:90分钟主要步骤:关键字摘要原理关键词摘要代码编写TextRank摘要算法原理TextRank摘要代码编写2、实验环境虚拟机数量:1系统版本:CentOS 7.5Python版本:Python 3.53、相关技能Pytho原创 2022-01-07 17:21:58 · 1795 阅读 · 0 评论 -
机器学习实践:棋类游戏-5
机器学习实践:棋类游戏1、实验描述本实验中,利用游戏Pygame库,结合Python基础编程编写棋类游戏脚本,使得玩家能够与AI电脑进行对抗博弈。AI下棋算法利用蒙特卡洛搜索树思想。通过设置AI的难度系数,从而决定AI在蒙特卡罗算法中的迭代次数,也就是定义好了AI能考虑到接下来对抗的几个回合落子情况,从而选择出最佳的方案和玩家对抗,本实验中AI难度设置较小,有兴趣的同学加入自己的思路进行实验。通过本实验的学习,我们能了解pygame在游戏开发中的应用以及蒙特卡罗搜索树思想。实验时长:90分钟原创 2022-01-07 17:16:23 · 3201 阅读 · 0 评论 -
机器学习实践:鸢尾花分类-4
机器学习实践:鸢尾花分类1、实验描述决策树是机器学习中一种简单而又经典的算法。本实验将带领大家学习决策树的基本原理,并学习使用 scikit-learn 来构建一个决策树分类模型,最后使用此模型预测鸢尾花的种类实验时长:45分钟主要步骤:Anaconda环境部署鸢尾花数据集简介构建决策树模型训练模型利用决策树模型进行预测预测结果展示决策树模型绘制2、实验环境虚拟机数量:1系统版本:CentOS 7.5Python版本:Python 3.53、相关技能原创 2022-01-07 10:36:29 · 2387 阅读 · 0 评论 -
机器学习实践:Spark MLlib库介绍与使用-3
机器学习实践:Spark MLlib库介绍与使用1、实验描述MLlib ( Machine Learning Library )是 Spark 的一个机器学习库。它能够较容易地解决一些实际的大规模机器学习问题。本实验旨在学习 Spark 的机器学习库—— MLlib 的相关知识,了解 MLlib 与 ML 之间的区别和联系,掌握 MLlib 中的几个基本数据类型实验时长:90分钟主要步骤:学习Mllib的基本数据类型学习Mllib的基本算法库利用Mllib算法库中的协同原创 2022-01-07 10:33:06 · 5582 阅读 · 1 评论 -
机器学习实践:手写数字识别-2
机器学习实践:手写数字识别1、实验描述本节实验我们将利用k近邻算法对手写数字进行识别,通过python命令行构建k近邻算法函数,输入实验提供的数据,进行数据分类,查看分类结果和错误率。通过本实验的学习,我们将掌握k近邻算法的基本原理和及其分类过程等内容实验时长:45分钟主要步骤:数据准备Anaconda环境部署编写文本转换向量函数编写k近邻分类器函数编写调用测试函数2、实验环境虚拟机数量:1系统版本:CentOS 7.5Pytho原创 2022-01-05 09:39:50 · 2370 阅读 · 0 评论 -
机器学习实践:动物图片识别-1
机器学习实践:动物图片识别1、实验描述SVM(支持向量机)是一种常用的机器学习分类算法。使用HOG+SVM算法和OpenCV实现一个图片分类器,通过训练分类器,达到可以判断任意图片是否是动物的效果;本节实验是利用hog来计算图像数据的特征描述,从而获得基于图片的特征向量,再利用SVM分类超平面来实现数据分类,并能够利用训练好的模型进行图像预测。实验时长:90分钟主要步骤:数据准备编写图片识别代码编写模型训练代码编写模型预测代码运行程序,查看结果2、原创 2021-12-30 17:15:10 · 6345 阅读 · 1 评论 -
Mahout实践:Mahout分类算法-11
Mahout实践:Mahout 分类算法1、实验描述本实验在Hadoop集群已经部署的前提下,使得mahout运行local模式下,然后做mahout的分类算法分析。实验时长:45分钟主要步骤:打开hadoop集群数据准备修改mahout相关环境变量数据预处理训练分类器测试分类器2、实验环境虚拟机数量:3系统版本:CentOS 7.5Mahout版本:apache-mahout-distribution-0.13.0Hadoop版本:Hadoop 2.原创 2021-12-30 17:11:12 · 1988 阅读 · 0 评论 -
Mahout实践:Mahout聚类算法-10
Mahout实践:Mahout聚类算法1、实验描述本实验通过在安装配置好的Hadoop集群和Mahout框架的基础上,完成了Kmeans算法的聚类任务。实验时长:45分钟主要步骤:打开hadoop集群准备数据执行任务2、实验环境虚拟机数量:3系统版本:CentOS 7.5Mahout版本:apache-mahout-distribution-0.13.0Hadoop版本:Hadoop 2.7.33、相关技能Hadoop 原理原创 2021-12-30 14:44:37 · 1480 阅读 · 0 评论 -
Mahout实践:Mahout安装部署-9
Mahout实践:Mahout安装部署1、实验描述本实验通过在Hadoop集群已经部署的前提下,安装配置Mahout,并使用默认的配置,使得mahout运行于集群模式之下。实验时长:45分钟主要步骤:打开hadoop集群安装配置Mahout验证Mahout安装2、实验环境虚拟机数量:3系统版本:CentOS 7.5Mahout版本:apache-mahout-distribution-0.13.0Hadoop版本:Hadoop 2.7.原创 2021-12-30 14:29:57 · 1740 阅读 · 0 评论 -
机器学习入门:隐马尔科夫模型-8
机器学习入门:隐马尔科夫模型1、实验描述本实验先简单介绍隐马尔科夫模型,然后提供一份股票交易的数据,通过建立隐马尔科夫模型对股票数据进行分析,并将最终结果用图的方式展示出来。实验时长:45分钟主要步骤:读取数据文件数据预处理模型创建模型的预测模型评估绘制相关的指标2、实验环境虚拟机数量:1系统版本:CentOS 7.5scikit-learn版本: 0.19.2numpy版本:1.15.1matplotlib版本:2.2.3py原创 2021-12-28 10:18:12 · 2162 阅读 · 0 评论 -
机器学习入门:决策树与随机森林-7
机器学习入门:决策树与随机森林1、实验描述本实验提供了一份汽车评测的数据,通过python编程,利用此数据,构造决策树模型、训练、预测及评估模型,然后绘制一下ROC曲线图;再使用随机森林建模、训练、预测及绘制ROC曲线。实验时长:45分钟主要步骤:加载训练数据数据预处理:将car.data数据数值化数据集的划分决策树模型、随机森林模型创建模型训练模型的预测模型评估绘制ROC曲线2、实验环境虚拟机数量:1系统版本:CentOS 7.5scikit-lear原创 2021-12-27 17:17:55 · 1599 阅读 · 0 评论 -
机器学习入门:支持向量机-6
机器学习入门:支持向量机1、实验描述本实验提供一些人手写的数字图片,并使用SVM 对手写数据集进行识别,并将识别结果用图展示出来。接着再使用交叉验证的方式,寻找算法的最优参数。实验时长:45分钟主要步骤:加载训练数据加载测试数据数据集预处理绘制训练数据、测试数据的灰度图模型训练模型的预测模型评估使用交叉验证 确定最优参数2、实验环境虚拟机数量:1系统版本:CentOS 7.5scikit-learn版本: 0.19.2numpy版本:1.15.1matplot原创 2021-12-26 17:05:03 · 1038 阅读 · 0 评论 -
机器学习入门:聚类算法-5
机器学习入门:聚类算法1、实验描述本实验先简单介绍了一下各聚类算法,然后利用鸢尾花数据集分别针对KMeans聚类、谱聚类、DBSCAN聚类建模,并训练模型;利用模型做预测,并使用相应的指标对模型进行整体的评估,并打印出三种算法的对比结果。实验时长:45分钟主要步骤:加载鸢尾花数据读取对应的样本和标签值建立相应的模型模型的预测模型评估2、实验环境虚拟机数量:1系统版本:CentOS 7.5scikit-learn版本: 0.19.2nump原创 2021-12-23 14:58:59 · 3440 阅读 · 0 评论 -
机器学习入门:主题模型-4
机器学习入门:主题模型1、实验描述本实验是关于主题模型LDA的,首先介绍了LDA的应用方面有哪些?然后通过以python编程方式调用LDA相关的API,实现对LDA自带数据集的文档主题的分析,并将最终结果可视化。实验时长:45分钟主要步骤:导入实验相关的包加载lda数据集观察数据样本利用特定的样本做测试创建LDA模型分析文档的主题分布计算对应主题的TOP N单词结果展示2、实验环境虚拟机数量:1系统版本:CentOS 7.5LDA版本:1.0.5scikit-l原创 2021-12-21 17:50:33 · 156 阅读 · 0 评论 -
机器学习入门:最大期望算法-3
机器学习入门:最大期望算法1、实验描述本实验通过使用EM算法解决部分观测数据的参数估计的难题,利用scikit-learn提供的EM模块,实现EM算法,创建模型,训练模型,然后利用模型计算均值、方差着数据,并最终用3d图示可视化结果。实验时长:45分钟主要步骤:设定随机种子数给定均值和方差生成模拟样本建立混合高斯模型利用样本,训练模型模型评估结果可视化2、实验环境虚拟机数量:1系统版本:CentOS 7.5scikit-lear原创 2021-12-20 09:44:17 · 173 阅读 · 0 评论 -
机器学习入门:逻辑回归-2
机器学习入门:逻辑回归1、实验描述本实验主要内容是,通过使用pandas对鸢尾花数据集进预处理,根据预处理数据建立logistics regression模型,并训练模型,再利用训练出来的模型做预测,并最终使用图形的方式展示预测结果。实验时长:45分钟主要步骤:加载iris数据集读取对应的标签和特征将标签值从string映射整数型对特征做标准化和映射多项式特征集模型创建模型的预测模型评估结果展示2、实验环境虚拟机数量:1系原创 2021-12-17 17:04:16 · 497 阅读 · 0 评论 -
机器学习入门:线性回归-1
机器学习入门:线性回归1、实验描述本实验中提供一份关于产品广告费用与对应产品销量的数据文件Advertising.csv文件,利用此文件建立线性模型、训练模型、用模型做预测分析。实验时长:45分钟主要步骤:加载csv文件获得标签和特征数据展示标签和特征的关系图切分数据集创建模型用模型做预测模型评估2、实验环境虚拟机数量:1系统版本:CentOS 7.5scikit-learn版本: 0.19.2pandas版本:原创 2021-12-17 17:01:39 · 743 阅读 · 0 评论