
机器学习
文章平均质量分 96
欢迎来到机器学习专栏!机器学习是一种让计算机通过学习数据来识别模式和做出决策的技术。它使用算法基于历史数据构建模型,并用这些模型来预测新数据的结果。常应用于图像识别、语言处理和推荐系统等领域。
ZShiJ
软件工程本科,大数据与机器学习方向(欢迎大家私信)
展开
-
基于聚类和回归分析方法探究蓝莓产量影响因素与预测模型研究附录
k均值聚类模型多元线性回归模型随机森林模型在数据分析项目中,选择合适的模型是至关重要的。本项目中,我们采用了三种不同的模型来分析蓝莓的生长条件和产量,以确保从不同角度全面理解数据。一、K均值聚类模型K均值聚类模型是一种无监督学习方法,用于根据数据的相似性将样本分成不同的组。在这个项目中,我们使用K均值聚类模型来识别具有相似特征的蓝莓品种。通过聚类分析,我们将蓝莓分为4个类别,每个类别代表了不同的生长条件和产量特性。这种分类有助于我们理解在不同环境条件下,哪些因素对蓝莓产量有显著影响。原创 2024-06-04 09:00:00 · 1638 阅读 · 0 评论 -
基于聚类和回归分析方法探究蓝莓产量影响因素与预测模型研究
k均值聚类模型多元线性回归模型随机森林模型在数据分析项目中,选择合适的模型是至关重要的。本项目中,我们采用了三种不同的模型来分析蓝莓的生长条件和产量,以确保从不同角度全面理解数据。一、K均值聚类模型K均值聚类模型是一种无监督学习方法,用于根据数据的相似性将样本分成不同的组。在这个项目中,我们使用K均值聚类模型来识别具有相似特征的蓝莓品种。通过聚类分析,我们将蓝莓分为4个类别,每个类别代表了不同的生长条件和产量特性。这种分类有助于我们理解在不同环境条件下,哪些因素对蓝莓产量有显著影响。原创 2024-06-04 08:00:00 · 2760 阅读 · 1 评论 -
基于数据挖掘与机器学习揭秘脱发主因
在本次研究中,我们采用了数据可视化和统计分析的方法,对影响脱发的各种因素进行了详尽的探索性分析。为了更准确地理解这些因素与脱发之间的关联,我们还构建了逻辑回归模型和随机森林模型。以下是我们通过这些方法得出的主要结论:1. 年龄是影响脱发的一个关键因素,特别是在18至50岁这个年龄段。在这个年龄范围内,20岁左右、38岁左右以及接近50岁的人群中,脱发现象更为常见。此外,那些有不良护发习惯的人略少于没有不良护发习惯的人。同时,认为自己处于可能导致脱发的环境中的人数略高于不认为自己处于此类环境的人数。原创 2024-05-13 07:00:00 · 2409 阅读 · 0 评论 -
多维因素与学生辍学风险预测附录
在构建数据模型时,我们可以引入以下标签进行相关性分析和预测:(将学业状态,是否为奖学金,学业成绩获得者作为标签,进行相关性分析与预测。学业状态:这一标签反映了学生的当前教育阶段,如是否在校、休学、毕业等。通过分析这一标签与其他变量的关系,我们可以识别可能导致学生辍学的风险因素,从而提前采取干预措施,如提供辅导和心理支持,以降低辍学率。奖学金获得者:这一标签指示学生是否获得奖学金。原创 2024-05-07 08:00:00 · 1306 阅读 · 0 评论 -
多维因素与学生辍学风险预测
本项目系统研究了学生学业数据,并研究影响辍学的关键因素、对地区情况进行分析,最终对辍学的发生进行预测。识别学生辍学的风险因素:提前去进行指导教育,降低辍学率发掘影响成绩的因素:对症下药,提高学习成绩不同地区社会因素对居民的影响:帮助社会机构可以制定帮助读书、就业的具体举措因为时间有限还有诸多可优化之处,还请多多包涵。原创 2024-05-07 07:00:00 · 2637 阅读 · 0 评论 -
机器学习实战 —— 工业蒸汽量预测(总)
燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。数据分析:查看变量间相关性以及找出关键变量。数据特征工程对数据精进:异常值处理、归一化处理以及特征降维。模型训练(涉及主流ML模型):决策树、随机森林,lightgbm等。模型验证:评估指标以及交叉验证等。特征优化:用lgb对特征进行优化。模型融合:进行基于stacking方式模型融合。原创 2024-05-06 07:00:00 · 2597 阅读 · 0 评论 -
机器学习实战 —— 工业蒸汽量预测(六)
燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。数据分析:查看变量间相关性以及找出关键变量。数据特征工程对数据精进:异常值处理、归一化处理以及特征降维。模型训练(涉及主流ML模型):决策树、随机森林,lightgbm等。模型验证:评估指标以及交叉验证等。特征优化:用lgb对特征进行优化。模型融合:进行基于stacking方式模型融合。原创 2024-05-05 07:00:00 · 1576 阅读 · 0 评论 -
机器学习实战 —— 工业蒸汽量预测(五)
燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。数据分析:查看变量间相关性以及找出关键变量。数据特征工程对数据精进:异常值处理、归一化处理以及特征降维。模型训练(涉及主流ML模型):决策树、随机森林,lightgbm等。模型验证:评估指标以及交叉验证等。特征优化:用lgb对特征进行优化。模型融合:进行基于stacking方式模型融合。原创 2024-05-04 07:00:00 · 1394 阅读 · 0 评论 -
机器学习实战 —— 工业蒸汽量预测(四)
燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。数据分析:查看变量间相关性以及找出关键变量。数据特征工程对数据精进:异常值处理、归一化处理以及特征降维。模型训练(涉及主流ML模型):决策树、随机森林,lightgbm等。模型验证:评估指标以及交叉验证等。特征优化:用lgb对特征进行优化。模型融合:进行基于stacking方式模型融合。原创 2024-05-03 07:00:00 · 1205 阅读 · 0 评论 -
机器学习实战 —— 工业蒸汽量预测(三)
燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。数据分析:查看变量间相关性以及找出关键变量。数据特征工程对数据精进:异常值处理、归一化处理以及特征降维。模型训练(涉及主流ML模型):决策树、随机森林,lightgbm等。模型验证:评估指标以及交叉验证等。特征优化:用lgb对特征进行优化。模型融合:进行基于stacking方式模型融合。原创 2024-05-02 07:00:00 · 1248 阅读 · 0 评论 -
机器学习实战 —— 工业蒸汽量预测(二)
燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。数据分析:查看变量间相关性以及找出关键变量。数据特征工程对数据精进:异常值处理、归一化处理以及特征降维。模型训练(涉及主流ML模型):决策树、随机森林,lightgbm等。模型验证:评估指标以及交叉验证等。特征优化:用lgb对特征进行优化。模型融合:进行基于stacking方式模型融合。原创 2024-05-01 07:00:00 · 1374 阅读 · 0 评论 -
机器学习实战 —— 工业蒸汽量预测(一)
燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。数据分析:查看变量间相关性以及找出关键变量。数据特征工程对数据精进:异常值处理、归一化处理以及特征降维。模型训练(涉及主流ML模型):决策树、随机森林,lightgbm等。模型验证:评估指标以及交叉验证等。特征优化:用lgb对特征进行优化。模型融合:进行基于stacking方式模型融合。原创 2024-04-30 15:52:19 · 2089 阅读 · 0 评论 -
百货商场用户画像描绘与价值分析附录
本项目内容主要是基于Python的“百货商场用户画像描述与价值分析”,里面有详细的数据预处理、数据可视化和数据建模等步骤。同时,针对传统RFM模型进行了改进,构造了LRFMP模型来分析客户价值,挖掘客户价值的八个字段,并通过WordCloud形式展现了出来,可以对会员用户进行精准画像。原创 2024-04-17 08:00:00 · 1333 阅读 · 0 评论 -
百货商场用户画像描绘与价值分析
本项目内容主要是基于Python的“百货商场用户画像描述与价值分析”,里面有详细的数据预处理、数据可视化和数据建模等步骤。同时,针对传统RFM模型进行了改进,构造了LRFMP模型来分析客户价值,挖掘客户价值的八个字段,并通过WordCloud形式展现了出来,可以对会员用户进行精准画像。原创 2024-04-17 07:00:00 · 2610 阅读 · 1 评论 -
关于运动员伤病预测数据集的探索
为了帮助调整训练计划以降低受伤风险,我们可以基于现有的数据集来提供一些建议。监控训练强度:分析显示:训练强度与受伤可能性之间存在微弱的正相关关系。建议运动员和教练团队密切监控训练强度,避免过度训练。可以考虑使用心率监测器和其他可穿戴设备来跟踪训练强度,并据此调整训练计划。注意体重和身高:分析显示:体重和身高是预测受伤可能性的重要因素。运动员应该确保他们的体重和身高比例适当,避免过重或过高的体重增加受伤风险。考虑年龄因素:分析显示:随着年龄的增长,运动员的身体恢复能力和适应性可能会下降。原创 2024-04-16 07:00:00 · 2776 阅读 · 0 评论 -
机器学习 —— 使用机器学习进行情感分析 演示版
如上图所示,test和train目录下都有25000个数据集,分别在neg 与 pos文件夹下,代表负面(6分以下)和正面(6分以上)的评论。正则表达式就是利用特殊符号构建的一种规则,将文本中符合这种规则的字符串提取或者消除的一种方式,在这里我们构建了符合HTML符号的一种规则,将HTML符号在我们的文本数据中进行剔除。如图所示,在训练集上进行部分拟合后,十次迭代的准确度与测试集经过十次迭代的准确度相差不远,说明模型欠拟合。使用词袋模型,首先对文本数据进行词汇分割,这里利用文本中的空格进行分割。原创 2024-04-10 10:30:00 · 1482 阅读 · 0 评论 -
机器学习 —— 使用机器学习进行情感分析 详细介绍版
定义参数网格,用于网格搜索和交叉验证。参数网格中包含了多个参数的取值组合,通过尝试不同的组合来找到最佳的模型参数。具体参数含义如下:vect__ngram_range: [(1, 1)] 表示单词组合的范围为单个单词,不考虑多个单词的组合。vect__stop_words: [stop, None] 表示停用词列表的取值,包括使用预定义的停用词列表stop和不使用停用词列表。原创 2024-04-10 08:00:00 · 4809 阅读 · 2 评论 -
机器学习 —— MNIST手写体识别
给定数据集MNIST,Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npzMNIST是一个计算机视觉数据集,它包含各种手写数字图片0,1,2,…,9MNIST数据集包含:60000行的训练数据集(mnist.train)和10000行的测试数据集(mnist.test)。原创 2024-04-09 14:00:00 · 2268 阅读 · 0 评论 -
机器学习 —— 分类预测与集成学习
本文使用工具本文使用数据集从指定的数据源读取数据,对数据进行必要的处理,选取合适的特征,构造分类模型,确定一个人的年收入是否超过50K。数据来源:1994年美国人口普查数据库。(原始数据下载地址:https://archive.ics.uci.edu/ml/datasets/Adult )。数据存放在data目录中,其中,adult.data存放训练数据,adult.test存放测试数据。特征列age:年龄,整数。原创 2024-04-09 08:00:00 · 1027 阅读 · 0 评论 -
机器学习 —— 数据分析与图表绘制
将日期进行分割# 自定义函数::分隔销售口期,获取销售日期# 输入:timeColSer销售时间这一列,是个Series数据类型# 输出:分割后的时间,返回的也是Series数据类型for t in timeColser:# [0]表示选取的分片,这里表示切割完后选取第一个分片timelist.append(t.split(" ")[0])# split(" ")分割timeser = pd.Series(timelist)# 将列表转行为一维数据Series类型。原创 2024-04-08 14:00:00 · 875 阅读 · 2 评论