数据挖掘
文章平均质量分 96
国内数据挖掘行业发展得如火如荼,几乎在各行各业都能见到数据挖掘的身影,掌握好数据挖掘实战项目,会帮助许多想转行进入数据领域的同学的必学内容。
AI研习星球
算法辅导、论文辅导、4V1辅导、核心期刊,SCI论文,EI会议、期刊、论文带读、本硕毕业论文。
展开
-
数据挖掘-11-利用python进行信用卡欺诈检测(包含数据代码)
信用卡是传统金融行业的范畴,但同时信用卡支付仍为日常生活中常见的一种支付方式,是一种透支消费行为。当然,在交易中也会存在着这种欺诈(信用卡被盗刷)行为。加入可以利用机器学习完成对欺诈情况的预测,有助于信用卡发卡机构实现反欺诈,保护持卡人的财产安全。信用卡欺诈是指故意使用伪造、作废的信用卡,冒用他人的信用卡骗取财物,或用本人信用卡进行恶意透支的行为。原创 2023-12-25 15:24:55 · 1869 阅读 · 0 评论 -
数据挖掘-10-酒店预订需求(包含数据和代码)
城市酒店的总预订量大,但同时预订取消率也不低,主要是因为城市酒店的主要用户群是商务差旅的用户,往往具有紧急性及未规划性,酒店的预订在未规划及深入了解酒店状态情况下,容易盲目预订、退订,所以退订率高,建议在在渠道平台增加“附近优选”功能,通过输入地址,自动筛选推荐附近城市酒店的入住率高、复住率高、评价高等高品质回馈的城市酒店,一方面能为用户提供更高效便捷的推荐服务,另一方面也促使平台渠道优化服务内容。如果酒店的预约被取消,则可能存在隐性的问题,这时需要我们提前对退订的订单做预测,提前发现存在的问题。原创 2023-12-24 14:21:12 · 1065 阅读 · 0 评论 -
数据挖掘-09-IBM员工流失率预测(包括数据和代码)
如所观察到的,我们的随机森林为其预测返回了大约88%的准确度,乍一看这似乎是一个表现相当不错的模型。然而,当我们考虑我们的目标变量偏差时,其中yes和no的分布分别为84%和26%,因此我们的模型仅比随机猜测稍微好一些。因此,顾名思义,用于最小化损失函数的算法是梯度下降方法,该方法添加决策树,其在指向减少我们的损失函数(向下梯度)的方向上“指向”。话虽如此,还有很大的改进空间。编码了我们的分类变量,并创建了一些新特征,我们现在可以继续将两个数据集合并成一个最终集中,我们将使用它来训练和测试我们的模型。原创 2023-12-21 19:45:00 · 1156 阅读 · 0 评论 -
数据挖掘-08-基于Python实现时间序列分析建模(ARIMA 模型)(包括数据和代码)
ARIMA(1,1,0)和ARIMA(1,1,1)这两个模型也能通过检验。数据清洗的结果是对各种脏数据进行对应方式的处理,得到标准的,干净的、连续的数据,提供给数据统计、数据挖掘等使用。一阶差分后自相关图显示出 1 阶截尾,偏自相关图显示出拖尾性,所以可以考虑用 MA(1)模型拟合 1 阶差分后的序列,即对原始序列建立 ARIMA(0,1,1)模型。结果显示,一阶差分之后序列的时序图在均值附近比较平稳地波动、自相关图有很强的短期相关性、单位根检验 p 值小于 0.05,所以一阶差分之后的序列是平稳序列。原创 2023-12-15 19:00:00 · 1267 阅读 · 0 评论 -
数据挖掘-07-航空公司客户价值分析(包括数据和代码)
通过客户分类,对客户群体进行细分,区别出低价值客户与高价值客户,对不同的客户群体开展不同的个性化服务,将有限的资源合理地分配给不同价值的客户,从而实现效益最大化。通过建立合理的客户价值评估模型,对客户进行分类,分析比较不同客户群体的价值,并制定相应的营销策略,对不同的客户群提供个性化的客户服务是必须的和有效的。一部分客户集中在箱体中,少部分客户分散分布在箱体上方,这部分客户的积分要明显高于箱体内的客户的积分。查看数据结构,6W+的数据,44个字段,包含了客户的基本信息,客户乘机信息,和客户的积分信息。原创 2023-12-14 19:00:00 · 1197 阅读 · 0 评论 -
数据挖掘-06-中医证型关联规则挖掘(包括数据和代码)
根据上述运行结果,我们得出了5个关联规则,如A3–F–H4,它的意思是A3,F4=>H4,类似的, D2–F3–H4–A2的意思是D2,F3,H4=>A2。假设你是一个超帅的医生,诊断肿瘤,你需要根据不同的病人症状来判断症状间的关系,规律,在不同阶段给病人开药,提高他活命的机会。生病的症状有很多种,彼此之间也是有关系的,比如因为你感冒了,所以发烧了,咳嗽了,流鼻涕了。所以我们需要分析不同症状之间的关系和规律,在病情恶化前尽量截断。根据如下症状,去除与挖掘任务不相关的属性,选取6种证型得分和TNM。原创 2023-12-13 18:30:00 · 1027 阅读 · 0 评论 -
机器学习-05-利用python建立汽车销售厂商偷漏税用户识别模型(包括数据和代码)
本次研究涉及了数据分析基本流程、CART决策树模型建立、逻辑回归模型建立、混淆矩阵可视化结果、ROC曲线绘制,采用科学方法建立了数据模型并对模型进行评价。本次研究也存在一定问题,混淆矩阵图和ROC曲线图几乎每一次运行结果都不一样,除了CART决策树模型的训练样本,也就是准确率为100%的那个图是不变的,其他的图一直都在变化,说明预测结果一直都在变化。尚不知是什么原因。关注公众号:『AI学习星球建立汽车销售厂商偷漏税用户识别模型即可获取数据下载。论文辅导或算法学习可以通过公众号滴滴我。原创 2023-12-03 15:00:00 · 908 阅读 · 1 评论 -
机器学习-04-基于水色图像的水质评价(包含代码和数据)
一般情况下,采集到的水样图片包含盛水容器,且容器颜色与水体颜色差异较大,同时水体位于图片中央,所以为了提取水色特征,就需要提取水样图片中央部分具有代表意义的图像,具体实施方式是提取水样图像中央101×101像素的图像。颜色直方图是最基本的颜色特征表示方法,它反映的是图像中颜色的组成分布即出现了哪些颜色以及各种颜色出现的概率。颜色直方图产生的特征维数一般大于颜色矩的特征维数,为了避免变量过多影响后续分类效果,选择基于颜色矩提取图像特征的方式,建立水样图像与反映该图像特征的数据信息之间的关系。原创 2023-11-30 15:16:35 · 1074 阅读 · 0 评论 -
机器学习-03-AQI分析与预测(空气质量指数)(包含代码和数据)
空气质量总体分布上来说,南部城市优于北部城市,西部城市优于东部城市临海城市的空气质量整体上好于内陆城市是否临海、降雨量和纬度对空气质量的影响较大我国城市平均空气质量指数大致在(70.63 - 80.04)这个区间内,置信度95%通过历史数据,我们可以对空气质量指数进行预测关注公众号:『AI学习星球AQI分析与预测即可获取数据下载。论文辅导或算法学习可以通过公众号滴滴我。原创 2023-11-30 14:00:00 · 1905 阅读 · 1 评论 -
机器学习-02-LoanPrediction(贷款预言)(包含代码和数据)
这是一个在Analytics Vidhya上的贷款预测问题,有两个数据集,训练集给出了一些贷款申请人的信息及其申请贷款的结果(被允许或者拒绝),测试集给出了一些贷款申请人的信息但没有其申请贷款的结果,需要对这些数据训练出一个分类模型并对测试集的数据进行预测。:收入分配的大部分数据主要偏在左边,没有呈现正态分布,箱线图确认存在大量异常值,收入差距较大,需要进行处理。:信用记录为1的人更有可能获得贷款批准,说明有信用的获得贷款的机会大。:可以看到受教育的人,有很多的高收入,出现异常值。原创 2023-11-29 17:54:36 · 1751 阅读 · 0 评论 -
数据挖掘/机器学习-01-泰坦尼克号获救预测 Titanic(包含数据和代码)
这是一艘号称当时世界上最大的邮轮,船上的人年龄各异,背景不同,有贵族豪门,也有平民旅人,邮轮撞击冰山后,船上的人马上采取措施安排救生艇转移人员,从本次海难中存活下来的,也就是幸存者。通过观察名字数据,我们可以看出其中包括对乘客的称呼,如:Mr、Miss、Mrs等,称呼信息包含了乘客的年龄、性别,同时也包含了入社会地位等的称呼,如:Dr,Lady,Major(少校),Master(硕士,主人,师傅)等的称呼。可以看出,再不同港口上船,生还率不同,其中C港口最高,Q次之,S港口最低;原创 2023-11-29 15:43:30 · 1405 阅读 · 1 评论