
数据挖掘
文章平均质量分 96
欢迎来到“数据挖掘讨论”专栏!数据挖掘是从大型数据集中发现隐藏信息的过程,结合统计学、机器学习和数据库原理,通过算法探寻数据中的模式与关联,以预测未来趋势和支撑决策。它在商业智能、市场分析、医疗诊断等多个领域发挥着关键作用。
ZShiJ
软件工程本科,大数据与机器学习方向(欢迎大家私信)
展开
-
基于聚类和回归分析方法探究蓝莓产量影响因素与预测模型研究附录
k均值聚类模型多元线性回归模型随机森林模型在数据分析项目中,选择合适的模型是至关重要的。本项目中,我们采用了三种不同的模型来分析蓝莓的生长条件和产量,以确保从不同角度全面理解数据。一、K均值聚类模型K均值聚类模型是一种无监督学习方法,用于根据数据的相似性将样本分成不同的组。在这个项目中,我们使用K均值聚类模型来识别具有相似特征的蓝莓品种。通过聚类分析,我们将蓝莓分为4个类别,每个类别代表了不同的生长条件和产量特性。这种分类有助于我们理解在不同环境条件下,哪些因素对蓝莓产量有显著影响。原创 2024-06-04 09:00:00 · 1638 阅读 · 0 评论 -
基于聚类和回归分析方法探究蓝莓产量影响因素与预测模型研究
k均值聚类模型多元线性回归模型随机森林模型在数据分析项目中,选择合适的模型是至关重要的。本项目中,我们采用了三种不同的模型来分析蓝莓的生长条件和产量,以确保从不同角度全面理解数据。一、K均值聚类模型K均值聚类模型是一种无监督学习方法,用于根据数据的相似性将样本分成不同的组。在这个项目中,我们使用K均值聚类模型来识别具有相似特征的蓝莓品种。通过聚类分析,我们将蓝莓分为4个类别,每个类别代表了不同的生长条件和产量特性。这种分类有助于我们理解在不同环境条件下,哪些因素对蓝莓产量有显著影响。原创 2024-06-04 08:00:00 · 2760 阅读 · 1 评论 -
数据可视化在图书馆中的应用及发展趋势
为说明数据可视化在图书馆的应用实践,以CNKI期刊数据库收录的期刊论文为研究对象,运用Excel 2016数据统计软件和VOSviewer1.6 . 19等可视化分析软件。将数据可视化在图书馆应用的研究成果分为4个阶段对研究热点和趋势进行可视化分析。图书馆行业数据可视化应用的研究重点逐渐从数据分析转向数据服务。随着社交媒体的广泛使用,图书馆比以往更加重视用户数据素养的培养、知识服务的数字化、信息一目了然的可视化、数字人文的研究等。翻译 2024-05-22 11:47:47 · 384 阅读 · 0 评论 -
多维因素与学生辍学风险预测附录
在构建数据模型时,我们可以引入以下标签进行相关性分析和预测:(将学业状态,是否为奖学金,学业成绩获得者作为标签,进行相关性分析与预测。学业状态:这一标签反映了学生的当前教育阶段,如是否在校、休学、毕业等。通过分析这一标签与其他变量的关系,我们可以识别可能导致学生辍学的风险因素,从而提前采取干预措施,如提供辅导和心理支持,以降低辍学率。奖学金获得者:这一标签指示学生是否获得奖学金。原创 2024-05-07 08:00:00 · 1306 阅读 · 0 评论 -
多维因素与学生辍学风险预测
本项目系统研究了学生学业数据,并研究影响辍学的关键因素、对地区情况进行分析,最终对辍学的发生进行预测。识别学生辍学的风险因素:提前去进行指导教育,降低辍学率发掘影响成绩的因素:对症下药,提高学习成绩不同地区社会因素对居民的影响:帮助社会机构可以制定帮助读书、就业的具体举措因为时间有限还有诸多可优化之处,还请多多包涵。原创 2024-05-07 07:00:00 · 2637 阅读 · 0 评论 -
泰坦尼克号乘客生存情况预测分析总
Titanic数据集在数据分析领域是十分经典的数据集,非常适合刚入门的小伙伴进行学习!泰坦尼克号轮船的沉没是历史上最为人熟知的海难事件之一。1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在船上的 2224 名乘客和机组人员中,共造成 1502 人死亡。这场耸人听闻的悲剧震惊了国际社会,从而促进了船舶安全规定的完善。造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。尽管在沉船事件中幸存者有一些运气因素,但有些人比其他人更容易存活下来,究竟有哪些因素影响着最终乘客的生存与否呢?原创 2024-04-28 07:00:00 · 2206 阅读 · 0 评论 -
泰坦尼克号乘客生存情况预测分析3
Titanic数据集在数据分析领域是十分经典的数据集,非常适合刚入门的小伙伴进行学习!泰坦尼克号轮船的沉没是历史上最为人熟知的海难事件之一。1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在船上的 2224 名乘客和机组人员中,共造成 1502 人死亡。这场耸人听闻的悲剧震惊了国际社会,从而促进了船舶安全规定的完善。造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。尽管在沉船事件中幸存者有一些运气因素,但有些人比其他人更容易存活下来,究竟有哪些因素影响着最终乘客的生存与否呢?原创 2024-04-28 06:00:00 · 744 阅读 · 0 评论 -
泰坦尼克号乘客生存情况预测分析2
Titanic数据集在数据分析领域是十分经典的数据集,非常适合刚入门的小伙伴进行学习!泰坦尼克号轮船的沉没是历史上最为人熟知的海难事件之一。1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在船上的 2224 名乘客和机组人员中,共造成 1502 人死亡。这场耸人听闻的悲剧震惊了国际社会,从而促进了船舶安全规定的完善。造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。尽管在沉船事件中幸存者有一些运气因素,但有些人比其他人更容易存活下来,究竟有哪些因素影响着最终乘客的生存与否呢?原创 2024-04-27 07:00:00 · 1094 阅读 · 4 评论 -
泰坦尼克号乘客生存情况预测分析1
Titanic数据集在数据分析领域是十分经典的数据集,非常适合刚入门的小伙伴进行学习!泰坦尼克号轮船的沉没是历史上最为人熟知的海难事件之一。1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在船上的 2224 名乘客和机组人员中,共造成 1502 人死亡。这场耸人听闻的悲剧震惊了国际社会,从而促进了船舶安全规定的完善。造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。尽管在沉船事件中幸存者有一些运气因素,但有些人比其他人更容易存活下来,究竟有哪些因素影响着最终乘客的生存与否呢?原创 2024-04-27 06:00:00 · 2053 阅读 · 0 评论 -
基于Flask的岗位就业可视化系统(py版本介绍)
你将会学到1 Python爬虫:盗亦有道,掌握requests和xpath的相关用法。2 数据清洗:能详细知道项目中数据预处理的步骤,包括去重去缺失值、变量重编码、特征字段创造和文本数据预处理,玩转pandas、numpy相关用法。3 数据库知识:select、insert等操作,掌握pymysql相关用法。4 前后端知识:了解到HTML、JQuery、JavaScript、Ajax的相关用法。5 Flask知识:能快速建立起一个轻量级的Web框架,利用Python实现前后端交互。原创 2024-04-26 07:15:00 · 852 阅读 · 0 评论 -
基于Flask的岗位就业可视化系统(总)
将清洗后的数据存储到sql中return time_str.format("年", "月", "日")# 连接数据库# 关闭数据库if cursor:if con:# 定义函数来执行单独一条sql语句return ressql = 'select count(岗位链接), round(avg(薪水), 2), ' \原创 2024-04-26 07:00:00 · 1728 阅读 · 0 评论 -
基于Flask的岗位就业可视化系统(四)
本项目综合了基本数据分析的流程,包括数据采集(爬虫)、数据清洗、数据存储、数据前后端可视化等推荐阅读顺序为:数据采集——>数据清洗——>数据库存储——>基于Flask的前后端交互,有问题的话可以留言,有时间我会解疑~原创 2024-04-25 07:30:00 · 1218 阅读 · 0 评论 -
基于Flask的岗位就业可视化系统(三)
本项目综合了基本数据分析的流程,包括数据采集(爬虫)、数据清洗、数据存储、数据前后端可视化等推荐阅读顺序为:数据采集——>数据清洗——>数据库存储——>基于Flask的前后端交互,有问题的话可以留言,有时间我会解疑~原创 2024-04-25 07:00:00 · 1819 阅读 · 0 评论 -
基于Flask的岗位就业可视化系统(二)
本项目综合了基本数据分析的流程,包括数据采集(爬虫)、数据清洗、数据存储、数据前后端可视化等推荐阅读顺序为:数据采集——>数据清洗——>数据库存储——>基于Flask的前后端交互,有问题的话可以留言,有时间我会解疑~原创 2024-04-24 14:49:10 · 844 阅读 · 0 评论 -
基于Flask的岗位就业可视化系统(一)
本项目综合了基本数据分析的流程,包括数据采集(爬虫)、数据清洗、数据存储、数据前后端可视化等推荐阅读顺序为:数据采集——>数据清洗——>数据库存储——>基于Flask的前后端交互,有问题的话可以留言,有时间我会解疑~原创 2024-04-24 14:48:57 · 2161 阅读 · 0 评论 -
数据挖掘实战 —— 抖音用户浏览行为数据分析与挖掘(续)
本项目实现抖音用户浏览行为数据分析与挖掘。抖音是一款流行的短视频平台,用户在使用抖音时会产生大量的浏览行为数据,包括用户的观看视频、点赞、评论、分享等行为。本次项通过数据挖掘技术对抖音用户的浏览行为数据进行分析和挖掘,以获得有价值的信息和洞察,并将其应用于实际场景中,如用户个性化推荐、内容优化和广告定向投放等。原创 2024-04-22 08:00:00 · 3782 阅读 · 1 评论 -
百货商场用户画像描绘与价值分析附录
本项目内容主要是基于Python的“百货商场用户画像描述与价值分析”,里面有详细的数据预处理、数据可视化和数据建模等步骤。同时,针对传统RFM模型进行了改进,构造了LRFMP模型来分析客户价值,挖掘客户价值的八个字段,并通过WordCloud形式展现了出来,可以对会员用户进行精准画像。原创 2024-04-17 08:00:00 · 1333 阅读 · 0 评论 -
百货商场用户画像描绘与价值分析
本项目内容主要是基于Python的“百货商场用户画像描述与价值分析”,里面有详细的数据预处理、数据可视化和数据建模等步骤。同时,针对传统RFM模型进行了改进,构造了LRFMP模型来分析客户价值,挖掘客户价值的八个字段,并通过WordCloud形式展现了出来,可以对会员用户进行精准画像。原创 2024-04-17 07:00:00 · 2610 阅读 · 1 评论 -
Python爬取猫眼电影票房 + 数据可视化
通过造一个content字符串,包含请求方法、时间戳、User-Agent、index等信息,并对其进行MD5加密得到sign。接着我们就可以对于猫眼电影票房数据进行爬取了,比如上座率、场均人次、票房占比、电影名称、上映时间、综合票房、排片场次和排片占比等。接着我们想要进行数据抓包,就要看网站的具体内容,通过按F12,我们可以看到详细信息。所以我们需要对User-Agent与signKey分别进行解密。通过DataFrame输出到控制台我们可以看到爬取成功。对猫眼电影票房进行爬取,首先我们打开。原创 2024-04-18 07:00:00 · 6574 阅读 · 5 评论 -
淘宝天猫玩具销售数据可视化
淘宝销售乐高商品的店铺及其乐高产品、销量的信息进行分析数据集包括销售乐高的店铺信息、乐高的种类产品、销售省份等淘宝、天猫。原创 2024-04-16 10:00:00 · 1736 阅读 · 0 评论 -
关于运动员伤病预测数据集的探索
为了帮助调整训练计划以降低受伤风险,我们可以基于现有的数据集来提供一些建议。监控训练强度:分析显示:训练强度与受伤可能性之间存在微弱的正相关关系。建议运动员和教练团队密切监控训练强度,避免过度训练。可以考虑使用心率监测器和其他可穿戴设备来跟踪训练强度,并据此调整训练计划。注意体重和身高:分析显示:体重和身高是预测受伤可能性的重要因素。运动员应该确保他们的体重和身高比例适当,避免过重或过高的体重增加受伤风险。考虑年龄因素:分析显示:随着年龄的增长,运动员的身体恢复能力和适应性可能会下降。原创 2024-04-16 07:00:00 · 2776 阅读 · 0 评论 -
实习僧网站的实习岗位信息分析
主要对“实习僧网站”招聘数据挖掘、机器学习的实习岗位信息进行分析。数据主要来自“数据挖掘”、“机器学习”和“算法”这3个关键词下的数据。1.由于小E想要找的实习公司是机器学习算法相关的工作,所以只对“数据挖掘”、“机器学习”、“算法”这三个关键字进行了爬取;2.因此,分析目标就是国内公司对机器学习算法实习生的需求状况(仅基于实习僧网站),以及公司相关的分析。该数据主要用于“实习僧网站”招聘数据挖掘、机器学习的实习岗位信息进行分析。4.data_clean.csv(空文件,以便清洗后存放干净数据)原创 2024-04-15 08:00:00 · 1941 阅读 · 2 评论 -
数据挖掘实战 —— 抖音用户浏览行为数据分析与挖掘(代码部分)
本项目实现抖音用户浏览行为数据分析与挖掘。本次项通过数据挖掘技术对抖音用户的浏览行为数据进行分析和挖掘,以获得有价值的信息和洞察,并将其应用于实际场景中,如用户个性化推荐、内容优化和广告定向投放等。原创 2024-03-04 16:19:54 · 5252 阅读 · 0 评论 -
数据挖掘实战 —— 抖音用户浏览行为数据分析与挖掘(总)
本项目实现抖音用户浏览行为数据分析与挖掘。本次项通过数据挖掘技术对抖音用户的浏览行为数据进行分析和挖掘,以获得有价值的信息和洞察,并将其应用于实际场景中,如用户个性化推荐、内容优化和广告定向投放等。原创 2024-02-20 11:00:00 · 14627 阅读 · 9 评论 -
数据挖掘实战 —— 抖音用户浏览行为数据分析与挖掘(二)
本项目实现抖音用户浏览行为数据分析与挖掘。本次项通过数据挖掘技术对抖音用户的浏览行为数据进行分析和挖掘,以获得有价值的信息和洞察,并将其应用于实际场景中,如用户个性化推荐、内容优化和广告定向投放等。原创 2024-02-20 10:00:00 · 3232 阅读 · 0 评论 -
数据挖掘实战 —— 抖音用户浏览行为数据分析与挖掘(一)
本项目实现抖音用户浏览行为数据分析与挖掘。本次项通过数据挖掘技术对抖音用户的浏览行为数据进行分析和挖掘,以获得有价值的信息和洞察,并将其应用于实际场景中,如用户个性化推荐、内容优化和广告定向投放等。原创 2024-02-19 10:00:00 · 6300 阅读 · 3 评论 -
Apriori算法实现
大多数关联规则挖掘算法通常采用的一种策略是,将关联规则挖掘任务分解为如下两个主要的子任务:①频繁项集产生(Frequent Itemset Generation),其目标是发现满足最小支持度阈值的所有项集,这些项集称作频繁项集。②规则的产生(Rule Generation),其目标是从上一步发现的频繁项集中提取所有高置信度的规则,这些规则称作强规则。关联分析的目标:发现频繁项集和由频繁项集产生强关联规则,这些规则必须大于或等于最小支持度和最小置信度。原创 2024-02-07 10:30:00 · 1592 阅读 · 0 评论 -
利用贝叶斯算法对简单应用实现预测分类
假设有n个属性和m个类别,那么每个属性在每个类别中的条件概率可以表示为一个n*m的矩阵P,其中P(i,j)表示第i个属性在第j个类别中的条件概率。通常,事件A在事件B已发生的条件下发生的概率,与事件B在事件A已发生的条件下发生的概率是不一样的。它的基本思想是:对于给定的数据集,计算每个类别的先验概率,然后计算每个属性在每个类别中的条件概率,最后根据贝叶斯公式计算后验概率,选择概率最大的类别作为预测结果。整体来说,贝叶斯定理是概率论中的一个定理,描述在已知一些条件下,某事件的发生概率。即描述的是条件概率。原创 2024-02-07 09:00:00 · 1474 阅读 · 0 评论 -
定时获取微博热搜数据
scheduler提供了基于日期、固定时间间隔以及crontab类型的任务我们可以在主程序的运行过程中快速增加新作业或删除旧作业如果把作业存储在数据库中,那么作业的状态会被保存,当调度器重启时,不必重新添加作业,作业会恢复原状态继续执行触发器:调度逻辑,描述作业何时被触发,按照【日期date】,【时间间隔interval】,【固定时间点cron】触发作业。存储器:默认情况下,任务存放在内存中。也可以配置存放在不同类型的数据库中。原创 2024-01-22 10:00:00 · 1503 阅读 · 0 评论 -
TMDB电影数据分析(下)
本文对源自Kaggle TMDB电影数据集进行分析影响电影票房的因素,数据分析流程包含数据集概分析、数据清洗、数据统计以及分析影响电影票房的因素。影响票房因素可能是电影预算、电影类型、电影时长、受欢迎程度、电影评分,发行时间等有关系,通过具体数据进行分析影响票房的因素。原创 2024-01-18 09:30:00 · 3543 阅读 · 0 评论 -
TMDB电影数据分析(上)
本文对源自Kaggle TMDB电影数据集进行分析影响电影票房的因素,数据分析流程包含数据集概分析、数据清洗、数据统计以及分析影响电影票房的因素。影响票房因素可能是电影预算、电影类型、电影时长、受欢迎程度、电影评分,发行时间等有关系,通过具体数据进行分析影响票房的因素。原创 2024-01-18 09:00:00 · 3179 阅读 · 0 评论 -
可视化工具使用简介
从输出结果来看,该鸢尾花(Iris)数据集有5个字段,依次是花萼长度(Sepal.Length)、花萼宽度(Sepal.Width)、花瓣长度(Petal.Length)、花瓣宽度(Petal.Width)和类别(Species)。下面的代码调用DataFrame的hist方法绘制花萼长度(Sepal.Length)、花萼宽度(Sepal.Width)、花瓣长度(Petal.Length)、花瓣宽度(Petal.Width)的直方图。下面的代码绘制了150个样本的花瓣长度的折线图。原创 2024-01-16 09:00:00 · 982 阅读 · 0 评论 -
Numpy使用简介
Numpy是基于Python的通用数值计算工具包,其内包含大量数学计算函数和矩阵运算函数。多数科学计算工具包,比如Scipy,和数值分析工具包,比如Pandas、Scikit-learn,都依赖Numpy。利用Numpy,能够高效地对一维数组、矩阵或更高维度的多维数组进行运算,性能比使用Python列表的性能高得多。Numpy的核心数据结构是ndarray多维数组。本文介绍ndarray多维数组的基本操作。我们将使用Jupyter Notebook来编写和运行代码。原创 2024-01-12 09:00:00 · 1639 阅读 · 0 评论 -
Pandas使用简介
Series是带标签的一维ndarray。ndarray是Numpy的多维数组。所谓标签,有点类似于数据记录的主关键字,也类似于字典的键。下面的代码定义了名字为sd的变量,其类型是Series。上述各行中,第2个代码输入框内的,也即“In [2]:”开头的输入框内的,第2行代码是从字典d生成Series变量sd。第二个参数指出字典的键用作sd变量的标签。“Out[2]:”开头的5行,也即最后5行,是sd变量的输出内容。每一行有两列,第1列是标签,第2列是元素值。原创 2024-01-10 09:00:00 · 921 阅读 · 0 评论 -
Jupyter Notebook的使用
最近有人问我:ipynb的文件要怎么打开,打开后要怎么运行啊… 那么这篇博客就让我们看下如何解答上面的问题。接上文,安装Anaconda后,电脑里就会有“Jupyter Notebook”软件。下面简要介绍Windows系统内的“Jupyter Notebook”软件的使用。原创 2024-01-08 14:00:00 · 5831 阅读 · 0 评论 -
Anaconda下载安装与使用
Pandas之所以被称为工具包,原因是Pandas这个工具是由不同的代码模块组成的。每一个代码模块的功能不同,合在一起构成Pandas的丰富功能。其他工具包亦然。名称描述NumpyNumpy是通用的数值计算工具包,包含大量数学计算函数和矩阵运算函数。多数科学计算工具包和数值分析工具包依赖Numpy。PandasPandas是基于Numpy构建的、开源的Python数据分析工具包,依赖高效的数据结构提供面向大规模数据的、高性能的数据分析操作。原创 2024-01-08 08:00:00 · 2849 阅读 · 0 评论 -
数据分析概述
在当今数字化的时代,数据已经成为我们周围不可忽视的存在。从商业领域到医疗行业,从科学研究到政府治理,数据的涌现为我们提供了前所未有的信息资源。然而,要从这个庞大的信息海洋中获取有意义的见解并做出明智的决策,就需要数据分析这一强大的工具。数据分析是运用基于计算机的数据处理技术和统计分析方法,对收集到的数据进行整理分析,提取有用的信息,帮助人们作出判断和决策。Python语言和工具对数据分析提供强有力的支撑。日常生活中,人们经常运用数据分析手段。原创 2024-01-04 09:00:00 · 1400 阅读 · 0 评论 -
【Python】—— matplotlib数据可视化
本关任务:根据excel文件“类别销售”工作簿(tbsc/step2/类别销售.xlsx)的烟、零食、饮料、酒工作表的数据,找出销售数量合计最高的三种商品,建立条状图。例:以下代码可以设置日期格式为年-月-日,设置x轴的取值范围为2021-1-1到2021-5-31日,在x轴垂直显示2021-1-1。该函数主要用于生成一个固定频率的时间索引,在调用构造方法时,必须指定start、end、periods中的两个参数值,否则报错。柱形的横轴坐标分别为0,0.5,1,每个柱形的宽度为0.2,图例为商品名称。原创 2023-12-20 07:30:00 · 2267 阅读 · 0 评论 -
【Python】—— pandas数据处理
Pandas 提供了丰富的数据处理功能,涵盖了从数据导入、清理、转换到分析和可视化的方方面面。这些功能只是 Pandas 提供的众多数据处理功能的一部分。根据具体的数据和分析目标,还需要深入学习 Pandas 文档并结合其他库(如 Matplotlib、Seaborn、NumPy)进行更复杂的数据处理和分析。原创 2023-12-19 12:00:00 · 1616 阅读 · 0 评论 -
【Python】—— pandas 数据分析
pandas 是基于NumPy 的一种工具,该工具是为解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。原创 2023-12-19 11:00:00 · 1861 阅读 · 0 评论