![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
文章平均质量分 96
艾派森
CSDN内容合伙人、新星导师、大数据分析领域优质创作者、阿里云社区专家博主,热爱python(昵称的由来),专注于数据分析、数据挖掘,持续分享学习笔记,感谢关注与支持。专栏【大数据分析案例合集】,感兴趣的小伙伴速速订阅!接Python爬虫、数据分析、数据挖掘、机器学习等相关课程设计作业/毕设,有需求请私信我!需要领取博文代码、数据集、学习资料、进粉丝交流群、的小伙伴点击了解:https://bbs.csdn.net/topics/614636587
展开
-
基于文本挖掘的卡塔尔世界杯赛事网络舆情演变与趋势预测
本文通过爬取微博、B站、咪咕等视频平台上卡塔尔世界杯赛事相关博文数据和视频评论,在数据预处理中进行了基于原创文本量、点赞量、评论量、转发量、ip属地统计量的统计分析,并通过分析不同时期的相关数据量发展趋势划分了三个热点事件发展阶段,发展时期、爆发时期、消亡时期。原创 2024-06-18 17:11:01 · 8893 阅读 · 86 评论 -
数据挖掘实战-基于Catboost算法的艾滋病数据可视化与建模分析
本数据集来源于Kaggle,数据集包含有关被诊断患有艾滋病的患者的医疗保健统计数据和分类信息。该数据集最初于 1996 年发布。time:失败或审查的时间trt:治疗指标(0 = 仅 ZDV;1 = ZDV + ddI,2 = ZDV + Zal,3 = 仅 ddI)age:基线年龄(岁)wtkg:基线时的体重(公斤)hemo:血友病(0=否,1=是)homo:同性恋活动(0=否,1=是)drugs:静脉注射药物使用史(0=否,1=是)karnof:卡诺夫斯基分数(范围为 0-100)原创 2024-06-07 21:32:27 · 11242 阅读 · 53 评论 -
数据挖掘实战-基于长短期记忆网络(LSTM)的黄金价格预测模型 | 97% 准确度
本实验基于Kaggle上提供的从2013年到2023年的黄金价格数据集,运用长短期记忆网络(LSTM)构建了黄金价格预测模型。该数据集详细记录了每日的黄金价格信息,包括开盘价、收盘价、高点、低点和交易量等,为模型的训练提供了丰富的数据支持。原创 2024-06-04 08:33:51 · 13266 阅读 · 89 评论 -
数据分析案例-在线食品订单数据可视化分析与建模分类
本实验数据集来源于Kaggle在线食品订单数据集该数据集包含一段时间内从在线订餐平台收集的信息。它包含与职业、家庭规模、反馈等相关的各种属性。Age:顾客的年龄。Gender:客户的性别。Marital Status:客户的婚姻状况。Occupation:客户的职业。Monthly Income:客户的月收入。Educational Qualifications:客户的教育资格。Family size:客户家庭中的人数。latitude:客户所在位置的纬度。原创 2024-05-31 21:08:00 · 10337 阅读 · 100 评论 -
数据挖掘实战-基于余弦相似度的印度美食推荐系统
印度美食由印度次大陆本土的各种地区和传统美食组成。由于土壤、气候、文化、种族和职业的多样性,这些菜肴差异很大,并使用当地可用的香料、香草、蔬菜和水果。印度食物也深受宗教(特别是印度教)、文化选择和传统的影响。本数据集来源于Kaggle,原始数据集共有255条,8个变量,各变量含义解释如下:name : 菜肴名称ingredients:主要使用成分diet:饮食类型 - 素食或非素食prep_time : 准备时间Cook_time : 烹饪时间。原创 2024-05-27 16:39:05 · 9482 阅读 · 88 评论 -
数据挖掘实战-基于内容协同过滤算法的电影推荐系统
本研究通过构建并优化基于内容协同过滤算法的电影推荐系统,成功实现了对用户个性化电影推荐需求的精准满足。实验结果表明,该系统能够结合电影内容特征和用户行为数据,为用户提供更加符合其兴趣和偏好的电影推荐。相较于单一的推荐方法,该系统展现出了更高的推荐准确性和用户满意度,从而验证了内容协同过滤算法在电影推荐系统中的有效性和优越性。原创 2024-05-24 16:24:03 · 17116 阅读 · 87 评论 -
基于Python爬虫+机器学习技术的杭州租房价格预测建模研究
本研究旨在结合Python爬虫和机器学习技术,对杭州租房价格进行预测建模与优化研究。通过抓取租房网站上的数据,提取出影响租房价格的关键因素,并利用机器学习算法构建预测模型。通过对模型的优化和验证,我们可以更加准确地预测租房价格,为租房者和房东提供有价值的参考信息,同时也为房地产市场的研究和决策提供数据支持。原创 2024-05-19 09:25:02 · 12199 阅读 · 116 评论 -
数据挖掘实战-基于决策树算法构建银行贷款审批预测模型
本数据集来源于Kaggle,在这个贷款状态预测数据集中,我们有以前根据property Loan的属性申请贷款的申请人的数据。银行将根据申请人的收入、贷款金额、以前的信用记录、共同申请人的收入等因素来决定是否向申请人提供贷款。我们的目标是建立一个机器学习模型来预测申请人的贷款被批准或被拒绝。原始数据集共有381条,13个变量。各变量含义如下:Loan_ID:唯一的贷款ID。Gender:男性或女性。Married:天气结婚(是)或不结婚(否)。Dependents:依赖于客户端的人数。原创 2024-05-13 09:45:32 · 16552 阅读 · 119 评论 -
数据挖掘实战-基于深度学习RNN+CNN的能源价格预测模型
数据集来源于Kaggle,原始数据集共有35064条,28个变量。在当今动态的能源市场中,准确预测能源价格对有效决策和资源配置至关重要。在这个项目中,我们使用先进的深度学习技术——特别是一维卷积神经网络(CNN)和循环神经网络(RNN)——深入研究预测分析领域。通过利用能源价格数据中的历史模式和依赖关系,我们的目标是建立能够高精度预测未来能源价格的模型。通过实验,我们发现每种方法都有自己的优点和局限性。SimpleRNN提供了一个简单且可解释的体系结构,但可能会与长期依赖关系作斗争。原创 2024-05-07 14:22:22 · 9428 阅读 · 95 评论 -
数据挖掘实战-基于CNN深度学习算法构建英文文本分类模型
随着互联网和社交媒体的快速发展,大量的英文文本数据不断产生,如博客、新闻、论坛帖子等。对这些文本数据进行分类和组织成为一项重要的任务,有助于提高信息检索的效率,更好地理解用户需求,以及为各种应用提供有价值的信息。传统的文本分类方法通常基于手工特征工程,然而这种方法不仅耗时,而且对于大规模和高维度的数据集效果有限。近年来,深度学习技术的崛起为文本分类带来了新的解决方案。卷积神经网络(CNN)作为一种在图像识别中取得巨大成功的深度学习算法,也被广泛应用于自然语言处理领域,特别是文本分类任务。原创 2024-05-03 16:39:02 · 10691 阅读 · 98 评论 -
数据分析案例-全球表面温度数据可视化与统计分析
本数据集来源于Kaggle,原始数据集共有144条,19个变量。关于本数据集数据来自美国国家航空航天局GISS表面温度分析(GISTEMP v4)。这些数据集是全球和半球月平均值和区域年平均值的表。他们结合了陆地表面、空气和海洋表面的水温异常(陆地-海洋温度指数,L-OTI)。表中的数值是与相应的1951-1980年平均值的偏差。GISS地表温度分析版本4 (GISTEMP v4)是对全球地表温度变化的估计。原创 2024-04-29 22:18:24 · 12845 阅读 · 130 评论 -
数据分析案例-中国黄金股票市场的EDA与价格预测
本数据集来源于Kaggle,原始数据集为2015-2022年中国黄金股票价格,共有1945条,11个变量,各变量含义如下:ts_code- 交易市场代码trade_date- 交易日期close- 开盘价open- 收盘价high- 最高价格low- 最低价格pre_close- 最后交易日收盘价change- 变化点pct_chg- 变化的百分比vol- 交易量。原创 2024-04-20 10:20:43 · 10806 阅读 · 69 评论 -
数据挖掘实战-基于机器学习的垃圾邮件检测模型
随着互联网的普及和电子邮件的广泛使用,垃圾邮件的问题逐渐凸显。垃圾邮件不仅占据了用户的宝贵时间,还可能涉及到安全隐患,如恶意软件传播、网络钓鱼等。因此,有效地检测和过滤垃圾邮件成为了保障用户体验和网络安全的重要任务之一。原创 2024-04-10 20:04:00 · 10803 阅读 · 144 评论 -
数据挖掘实战-基于LSTM算法的HCV检测者分类模型研究
项目数据来自UCI机器学习知识库。收录日期是2020-06-10,由德国汉诺威医科大学临床化学研究所捐赠。该数据集包含献血者和丙型肝炎患者的实验室数据和年龄等人口学数据。数据集特征: 多元实例数量:377领域:生活属性特征:实整型属性数量:14相关的任务:分类 (含有缺失的值,对缺失值采取填充的方式解决)。数据集分类的目标属性是类别:0=献血者(即未发现丙肝病毒的人)、0s=疑似者、与三类丙型肝炎者,包括:1=仅为丙型肝炎、2=纤维化、3=肝硬化。原创 2024-04-06 18:57:14 · 9474 阅读 · 73 评论 -
基于ARIMA+SARIMA的航空公司 RPM 时间序列预测模型
数据集来源于Kaggle,原始数据集共有249条,17个变量。关于此文件2003 年 1 月至 2023 年 9 月美国所有商业航空公司的非季节性调整每月航空交通数据。注:收入乘客里程 = 乘客数量和飞行距离,以千 (000) 为单位可用座位里程 = 座位数和飞行距离,以千 (000) 为单位负载系数 = 乘客里程占可用座位的比例- 英里数百分比 (%)原创 2024-03-04 09:57:44 · 11858 阅读 · 71 评论 -
数据挖掘实战-基于决策树算法构建北京市空气质量预测模型
通过分析这些数据,我们将利用决策树算法建立预测模型。决策树算法具有直观易懂、分类效果好等优点,适合用于此类预测问题。我们将采用适当的方法对模型进行训练和优化,以提高预测精度。最终,我们将评估模型的预测效果,并探讨其在实际应用中的可行性和潜在价值。希望通过本实验,能为北京市的空气质量改善工作提供一定的支持。通过基于决策树算法构建的北京市空气质量预测模型的实验研究,我们在多方面取得了显著的进展。首先,我们成功地整合了来自气象、环保、交通等多个领域的大量数据,形成了一个全面而综合的空气质量分析框架。原创 2024-02-05 12:37:45 · 23062 阅读 · 66 评论 -
数据挖掘实战-基于机器学习的电商文本分类模型
随着电子商务的蓬勃发展,电商平台上产生了海量的文本数据,包括商品描述、用户评价、客服对话等。这些文本数据包含了丰富的信息,对于电商企业而言,能够充分挖掘这些信息将有助于提升用户体验、优化产品推荐、改进客户服务等方面。然而,由于文本数据的复杂性和庞大数量,传统的人工处理方式已经难以满足需求,因此利用机器学习技术对电商文本进行自动分类成为一项具有重要意义的研究任务。原创 2024-01-13 12:30:51 · 19245 阅读 · 98 评论 -
基于机器学习算法的数据分析师薪资预测模型优化研究
目前大陆地区对数据分析师的需求主要集中在北京、上海、深圳地区;相应提供的薪资水平也是这三个地区居于前面,证实了经济较好的地区对该岗位的需求更好、待遇更好;因而,对于互联网等相关企业,北上广深依旧是广大求职者的目标地区;从数据统计情况来看,针对数据分析师在学历方面的要求,目前是学历越高,薪资待遇越好;但相反的是,学历越高,岗位需求并非越大;而针对数据分析师在经验上的要求,目前是经验在3年及以上的岗位缺口更大;原创 2023-12-26 10:44:51 · 14686 阅读 · 105 评论 -
基于人气与协同过滤的图书推荐系统研究与实践
基于人气与协同过滤的图书推荐系统成为了当前研究的热点之一。通过深入研究用户行为数据和图书的人气信息,结合协同过滤算法,可以更好地满足用户的个性化需求,提高推荐系统的精准度和用户满意度。这也是本研究的动机所在,旨在探讨如何有效地整合人气信息和协同过滤算法,构建一种更为强大和智能的图书推荐系统。原创 2023-12-14 18:37:58 · 14838 阅读 · 150 评论 -
基于记忆与模型协同过滤的电影推荐系统研究与实践
随着信息技术的不断发展,人们在日常生活中面临着越来越多的选择,例如在电影、音乐、图书等娱乐领域。为了帮助用户更好地发现符合其兴趣和偏好的内容,推荐系统应运而生。推荐系统通过分析用户的历史行为、兴趣和偏好,向用户提供个性化的推荐内容,从而提升用户体验和平台的粘性。原创 2023-11-16 18:31:25 · 15802 阅读 · 167 评论 -
基于Bagging集成学习方法的情绪分类预测模型研究
本研究旨在探讨基于Bagging集成学习方法的情感分类预测模型。通过结合多个基分类器的输出,我们可以期望获得更为鲁棒和泛化能力强的情感分类模型,从而更好地适应不同领域和文本类型的情感分析任务。此外,通过采用Bootstrap采样技术,Bagging还能够有效减少过拟合的风险,提高模型的稳定性。原创 2023-11-21 17:15:36 · 14501 阅读 · 136 评论