Deng872347348
这个作者很懒,什么都没留下…
展开
-
决策树和 K 近邻分类
本次分别运用决策树和最近邻方法在分类任务上构建模型,并通过交叉验证对模型进行调优。在深入本次学习之前,首先了解一下什么是机器学习, Machine Learning(T. Mitchell 著,1997 年出版)一书中给出了机器学习经典、通用的定义:假设用 P 来评估计算机程序在某任务类 T 上的性能,若一个程序利用经验 E 在任务 T 上获得了性能改善,则我们就说关于 T 和 P, 该程序对 E 进行了学习。在不同的问题设定下,T、P、E 可能指完全不同的东西。分类:基于特征将实例分为某一类。原创 2023-05-18 15:29:43 · 684 阅读 · 2 评论 -
Python 数据可视化分析
在机器学习领域中,可视化是十分重要的。在开始一项新任务时,通过可视化手段探索数据能更好地帮助人们把握数据的要点。在分析模型表现和模型报告的结果时,可视化能使分析显得更加生动鲜明。有时候,为了理解复杂的模型,我们还可以将高维空间映射为视觉上更直观的二维或三维图形。总而言之,可视化是一个相对快捷的从数据中挖掘信息的手段。本文将使用 Pandas、Matplotlib、seaborn 等流行的库,带你上手可视化。原创 2023-05-18 09:22:49 · 1223 阅读 · 0 评论 -
使用 Pandas 进行数据探索
本次通过分析电信运营商的客户离网率数据集来熟悉 Pandas 数据探索的常用方法,并构建一个预测客户离网率的简单模型。本次使用 Pandas 对数据进行了一定程度的分析和探索,交叉表、透视表等方法的运用将使你在数据探索过程中事半功倍。相关链接** Pandas 官方文档** scipy-lectures.org 教程*原创 2023-05-14 14:46:38 · 463 阅读 · 0 评论 -
时间序列处理与应用
一般情况下,在进行数据分析时,几乎都会遇到与时间序列相关的任务。例如:某企业的某项指标在第二天或者每周,又或每月等会发生什么;某款应用每天的下载量是多少等等。在本节实验中,将使用不同的方法来处理这些与时间序列相关的任务。在本节中,还会介绍如何使用 Python 中的时间序列处理工具,可以使用哪些方法和模型进行预测,什么是双指数和三指数拟合,如果遇到非平稳的数据该怎么办,如何建立 SARIMA 模型,如何使用 XGBoost 进行预测等。此外,本次也会将这些算法应用在来自实际采集的数据中。原创 2023-05-12 09:32:35 · 520 阅读 · 0 评论 -
线性回归和随机梯度下降
接下来,你需要实现一个使用随机梯度下降方法的线性回归类,并使其可以完成训练和测试的过程。本次中,你需要使用随机梯度下降方法来完成线性回归问题。来计算普通最小二乘法得到在验证集上的 MSE 值。每个样本数据包含 2 个特征,我们绘制二维散点图。然后将数据集切分为训练和验证数据,并进行规范化。我们同样可以将规范化之后的训练数据绘制成散点图。打印出 MSE 的最小值,以及最终的权重系数。作出预测,并计算验证集上的 MSE 值。下面,加载挑战所使用的示例数据集。1 在训练过程中的变化曲线。得到的结果在 10−4。原创 2023-05-05 08:57:06 · 495 阅读 · 0 评论 -
非监督学习应用练习
这些数据来自三星 Galaxy S3 手机的加速度计和陀螺仪,你可以通过上面的链接找到有关这些功能的更多信息)。这里,我们使用某一原始类别被 KMeans 聚类后的最大数量簇,除以原始类别总数来表征聚类的分散程度。接下来的挑战过程中,我们首先假装不了解活动的类型,并尝试纯粹基于特征对样本进行聚类。接下来,请使用实验中介绍的方法,通过求解观测数据点与其所在的簇的质心之间的平方距离之和来选择本次数据的最佳聚类 K 值。不出意外时,这里的最佳聚类 K 值应该为 2,也就是将数据聚集为 2 类。原创 2023-04-22 10:23:09 · 306 阅读 · 0 评论 -
红酒质量数据回归探索
红酒质量数据集同样来自于 UCI 数据集网站。首先,导入所需模块。读取并预览数据集,同时查看数据集列属性。下面,将数据集按 7:3 分割成训练集和测试集,设置,同时使用对特征数据规范化。原创 2023-04-21 15:23:33 · 239 阅读 · 0 评论 -
构建信用评分预测分类模型
另一方面,Logistic 回归的主要优点是我们可以解释特征对模型结果的影响。让我们试着找到模型最佳正则化系数,该系数在逻辑回归中由 C 系数指定,其作用是得到一个不过度拟合的最优模型。AUC 值介于 0 到 1 之间,接近 1 则表示分类模型的质量越好。SeriousDlqin2yrs 即为目标值,0 代表正常偿还,1 代表延迟偿还。现在,我们将创建一个 LogisticRegression 模型,并使用。接下来,我们构建随机森林分类预测模型,首先导入所需类。同样,这里为了找到最佳参数值,使用。原创 2023-04-21 09:10:13 · 228 阅读 · 0 评论 -
逻辑回归用于讽刺文本检测
可以看的,二者在不同长度区间范围(横坐标)的计数分布比较均匀。接下来,我们训练讽刺评论分类预测模型。这里,我们使用 tf-idf 提取文本特征,并建立逻辑回归模型。由于讽刺评论的标签为 1,正常评论为 0,所以通过。我们可以发现,讽刺评论通常都喜欢使用 yes, clearly 等带有肯定意味的词句。同理,可以从用户的维度去分析讽刺评论的比例分布。由于数据量较大,代码执行时间较长,请耐心等待。特征,同样完成切分。首先,使用条形图可视化讽刺和正常文本长度,这里利用。发表评论的数量、讽刺评论的数量及比例。原创 2023-04-21 09:09:27 · 601 阅读 · 0 评论 -
决策树和随机森林分析应用
接下来,我们创建一个示例数据集,该数据集表示了 A 会不会和 B 进行第二次约会。而数据集中的特征包括:外貌,口才,酒精消费,以及第一次约会花了多少钱。接下来,我们需要对类别特征进行独热编码,以保证数据集特征全部为数值类型方便后续传入模型。可以看的测试数据中,年龄 Age 是 object 类型,我们需要修复其为整数类型。然后,对连续特征使用中位数对缺失数据进行填充,而类别特征则使用众数进行填充。然后,对数据集进行一些必要的清洗。接下来,查看训练数据集目标分布计数,同时绘制各项特征的关联分布图像。原创 2023-04-20 10:23:31 · 190 阅读 · 0 评论 -
心血管疾病数据探索分析
让我们来看看最右上角的矩形,也就是 60 到 65 岁的吸烟男性的子集。它利用单调方程评价两个统计变量的相关性,是用于衡量两个变量的依赖性的非参数指标。前面的探索中,我们知道性别对应 1 和 2,虽然不知道不同性别对应哪个值,但可以通过平均身高和体重来确定。接下来,让我们按目标值分割数据集,这样往往可以通过绘图结果快速找出相对重要的特征。你可能会注意到给出的数据并不够完美,在进一步可视化之前,我们需要对数据进行清洗。要更好地理解数据集特征,接下来使用过滤之后的数据创建特征之间相关系数的矩阵。原创 2023-04-19 17:23:45 · 517 阅读 · 0 评论 -
人口收入普查数据探索
Adult 数据集是一个关于人口收入普查的数据集,其包含多个特征,目标值为类别类型。问题:* 统计数据集中最长周工作小时数及对应的人数,并计算该群体中收入超过 50K 的比例。年收入超过 50K 和低于 50K 人群年龄的平均值和标准差是多少?统计男性高收入人群中已婚和未婚(包含离婚和分居)人群各自所占数量。计算各国超过和低于 50K 人群各自的平均周工作时长。统计不同种族和性别人群的年龄分布数据。数据集中女性的平均年龄是多少?数据集中德国公民的比例是多少?数据集中有多少男性和女性?原创 2023-04-19 15:47:58 · 497 阅读 · 0 评论 -
Matplotlib 二维图像绘制方法
Matplotlib 是支持 Python 语言的开源绘图库,因为其支持丰富的绘图类型、简单的绘图方式以及完善的接口文档,深受 Python 工程师、科研学者、数据工程师等各类人士的喜欢。本次实验课程中,我们将学会使用 Matplotlib 绘图的方法和技巧。上面,我们绘制了简单的基础图形,但这些图形都不美观。你可以通过更多的参数来让图形变得更漂亮。我们已经知道了,线形图通过方法绘出。其中,args代表数据输入,而kwargs的部分就是用于设置样式参数了。二维线形图* 包含的参数*参数含义。原创 2023-04-17 17:26:34 · 537 阅读 · 0 评论 -
Seaborn 数据可视化基础
Seaborn 数据可视化基础原创 2023-04-17 14:32:47 · 176 阅读 · 0 评论 -
基于人脸的常见表情识别——数据获取与整理
基于人脸的常见表情识别——数据获取与整理原创 2022-05-07 15:57:14 · 239 阅读 · 0 评论 -
基于人脸的常见表情识别——模型搭建、训练与测试
基于人脸的常见表情识别——模型搭建、训练与测试原创 2022-05-07 16:07:24 · 314 阅读 · 0 评论 -
深度学习-GAN_理论
深度学习-GAN_理论原创 2022-05-16 13:23:45 · 162 阅读 · 0 评论 -
深度学习项目(二)对话机器人
深度学习项目(二)对话机器人文章目录深度学习项目(二)对话机器人项目背景项目步骤注意力机制数据处理创建词向量搭建模型并训练项目背景对话聊天机器人是一个热门话题,许多研究者都希望能够开发出让人无法分辨真假的聊天机器人,许多人声称可以使用自然语言处理和深度学习技术来实现这一点。 现如今也出现了聊天机器人,比如小度等智能助手,本项目是使用电影对话语料库,使用Seq2Seq模型+注意力机制训练模型,并进行测试,可以使用模型进行对话。项目步骤本项目从以下五个步骤进行:注意力机制:编写本项目中的重点,注意原创 2021-08-28 21:56:24 · 536 阅读 · 0 评论 -
基于人脸的常见表情识别(1)——深度学习基础知识
基于人脸的常见表情识别(1)——深度学习基础知识原创 2022-04-15 23:14:47 · 197 阅读 · 0 评论 -
深度学习项目实战(一):猫狗识别
深度学习项目实战(一):猫狗识别文章目录深度学习项目实战(一):猫狗识别项目背景:数据读取:网络架构卷积神经网络训练项目背景:猫狗识别是卷积神经网络的入门实战案例,目的在于计算机可以识别出图片中是猫还是狗?其中数据集分为两类,一类是猫的图片,一类是狗的图片,如图所示:我们项目的步骤:数据读取,读取猫与狗的训练集与测试集数据。网络架构:编写代码,确定卷积神经网络结构,即卷积层,池化层的分布。卷积神经网络训练:使用训练集训练卷积神经网络模型。测试卷积神经网络效果:使用测试集验证卷积神经网络的原创 2021-08-16 17:43:01 · 6409 阅读 · 0 评论 -
梯度提升算法和 XGBoost 使用
梯度提升算法和 XGBoost 使用原创 2022-10-29 16:29:17 · 487 阅读 · 0 评论 -
机器学习之支持向量机
机器学习之支持向量机原创 2022-06-20 16:05:46 · 208 阅读 · 0 评论 -
机器学习之感知机
机器学习之感知机原创 2022-06-20 15:45:36 · 123 阅读 · 0 评论 -
机器学习之随机森林
机器学习之随机森林原创 2022-06-20 15:34:31 · 217 阅读 · 0 评论 -
机器学习之kNN算法
机器学习之kNN算法原创 2022-06-08 19:47:03 · 676 阅读 · 1 评论 -
机器学习之决策树
机器学习之决策树原创 2022-06-03 21:03:43 · 116 阅读 · 0 评论 -
机器学习之多分类学习
机器学习之多分类学习原创 2022-05-26 22:42:40 · 186 阅读 · 0 评论 -
机器学习-特征工程
机器学习-特征工程原创 2022-05-26 21:27:09 · 212 阅读 · 0 评论 -
机器学习之线性回归
机器学习之线性回归原创 2022-05-20 16:47:37 · 333 阅读 · 0 评论 -
机器学习之逻辑回归
机器学习之逻辑回归原创 2022-05-20 16:29:17 · 99 阅读 · 0 评论 -
机器学习之基础知识
机器学习之基础知识原创 2022-05-17 17:07:37 · 393 阅读 · 0 评论 -
机器学习之绪论
机器学习之绪论原创 2022-05-17 15:45:58 · 207 阅读 · 0 评论 -
机器学习-LightGBM
机器学习-LightGBM原创 2022-05-11 13:58:31 · 159 阅读 · 0 评论 -
机器学习-异常检测和推荐系统
机器学习-异常检测和推荐系统原创 2022-05-02 15:54:40 · 101 阅读 · 0 评论 -
机器学习-XGBoost
机器学习-XGBoost原创 2022-04-28 22:35:34 · 257 阅读 · 0 评论 -
机器学习算法(三):K近邻(k-nearest neighbors)初探
机器学习算法(三):K近邻(k-nearest neighbors)初探原创 2022-04-17 19:08:45 · 152 阅读 · 0 评论 -
机器学习算法(二): 朴素贝叶斯(Naive Bayes)
机器学习算法(二): 朴素贝叶斯(Naive Bayes)原创 2022-04-17 16:04:57 · 169 阅读 · 0 评论 -
机器学习算法(一): 基于逻辑回归的分类预测
机器学习算法(一): 基于逻辑回归的分类预测原创 2022-04-14 23:12:01 · 138 阅读 · 0 评论 -
机器学习入门之决策树完成鸢尾花分类
机器学习入门之决策树完成鸢尾花分类文章目录机器学习入门之决策树完成鸢尾花分类决策树基本原理决策树简介特征选择生成算法决策树修剪鸢尾花分类实验数据集简介数据获取及划分模型训练及预测决策树是机器学习中一种简单而又经典的算法,学习使用 scikit-learn 来构建一个决策树分类模型,最后使用此模型预测鸢尾花的种类决策树基本原理决策树简介决策树是一种特殊的树形结构,一般由节点和有向边组成。其中,节点表示特征、属性或者一个类。而有向边包含有判断条件。如图所示,决策树从根节点开始延伸,经过不同的判断条件原创 2022-03-08 13:55:37 · 958 阅读 · 0 评论 -
基于机器学习的天气预测
基于机器学习的天气预测文章目录基于机器学习的天气预测1、数据导入与预处理空值的处理将上一行数据填充到空值处异常值的处理,画图来判断是否存在异常值对目标值进行处理2、样本比例调整调整样本比例将天气情况作为索引,看每种天气情况的样本数,把每种天气的样本比例设置成相同,让样本均衡由于最小天气样本数为586,所以这里将所有的样本数调为5863、KNN算法训练数据并保存模型4、决策树训练数据集并保存模型5、支持向量机训练数据集并保存模型6、提取所训练的模型并预测将每种算法循环十次,得到十次预测准确率的结果并求平均值原创 2022-03-04 18:18:46 · 4604 阅读 · 0 评论