自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(330)
  • 收藏
  • 关注

原创 数据分析案例-机器学习工程师薪资数据可视化分析

本实验数据集来源于Kaggle,原始数据集中共有16494条数据,11个变量,各变量含义如下:work_year:收集薪资数据的年份(例如,2024 年)。experience_level:员工的经验水平(例如,MI 表示中级)。employment_type:就业类型(例如,FT 表示全职)。job_title:职位名称(例如数据科学家)。salary:工资金额。salary_currency:工资的计价货币(例如,USD 代表美元)。salary_in_usd:转换为美元的工资金额。

2024-10-07 15:47:05 1973 67

原创 分享Python7个爬虫小案例(附源码)

本次的7个python爬虫小案例涉及到了re正则、xpath、beautiful soup、selenium等知识点,非常适合刚入门python爬虫的小伙伴参考学习。

2022-10-22 07:00:00 135882 216

原创 大数据分析案例-基于逻辑回归算法构建抑郁非抑郁推文识别模型

本项目基于逻辑回归算法构建抑郁非抑郁推文识别模型具有重要的研究背景和应用价值。通过该模型的研究和应用,我们可以更好地理解和预测社交媒体中用户的心理健康状况,为抑郁症等心理疾病的防治提供有力的支持。在本次实验中,我们探索了使用不同的机器学习算法——逻辑回归、决策树和XGBoost——来构建抑郁非抑郁推文识别模型。经过严格的模型训练和验证过程,我们对比了三种模型的性能,并发现逻辑回归模型在准确率上达到了91%,超过了决策树和XGBoost模型。因此,我们最终选择了逻辑回归模型作为本次实验的最终模型。

2024-10-04 08:54:00 5255 80

原创 ROSTCM6+Gephi的网络语义分析详细教程(附案例实战)

ROSTCM6是武汉大学沈阳教授研发编码的国内目前唯一的以辅助人文社会科学研究的大型免费社会计算平台。该软件可以实现微博分析、聊天分析、全网分析、网站分析、浏览分析、分词、词频统计、英文词频统计、流量分析、聚类分析等一系列文本分析。Gephi是一款开源免费跨平台基于JVM的复杂网络分析软件,可用于各种图形和网络的可视化和探索,是最受欢迎的网络可视化软件之一。

2024-09-28 15:03:26 6449 53

原创 模糊综合评价法详细讲解+Python代码实现

模糊评价问题是要把论域中的对象对应评语集中一个指定的评语或者将方案作为评语集并选择一个最优的方案。在模糊综合评价中,引入三个集合:例:评价一名学生的表现U ={专业排名、课外实践、志愿服务、竞赛成绩}V={优、良、差}模糊综合评价模型就是给定对象,用因素集的指标进行评价,从评语集中找到一个最适合它的评语。如果评语集中是方案的话,就是选出一个最恰当的方案。那这种“合适”用什么来衡量呢?显而易见嘛,就是隶属度,隶属于某个模糊集合的程度。

2024-09-27 08:24:24 7455 75

原创 数据挖掘实战-基于SARIMA时间序列模型预测阿里巴巴股票数据趋势

本实验数据集来源于Kaggle,数据集包含阿里巴巴集团控股公司(BABA)从[2020年1月1日]到[2024年5月1日]的历史股价数据。数据集包括每日开盘价、最高价、最低价和收盘价,以及调整后的收盘价和成交量。本实验利用SARIMA时间序列模型对阿里巴巴股票价格进行趋势预测,并得出以下结论:通过对阿里巴巴股票历史数据的分析和建模,我们成功地建立了SARIMA模型,能够较好地拟合股票价格的波动情况。该模型考虑了数据的季节性、自相关和移动平均性质,具有一定的预测能力和准确性。

2024-09-22 15:16:11 10668 88

原创 数据分析案例-2024年QS世界大学排名数据可视化分析

数据集来源于Kaggle,原始数据集共有1498条,29个变量。关于数据集2024 年 QS 世界大学排名:全球顶尖大学第 20 版 QS 世界大学排名涵盖了 104 个地区的 1,500 所院校,是同类中唯一强调就业能力和可持续性的排名。今年,他们实施了有史以来最大规模的方法改进,引入了三个新指标:可持续性、就业成果和国际研究网络。该结果基于对 1750 万篇学术论文的分析以及超过 240,000 名学术教师和雇主的专家意见。

2024-09-19 10:59:48 12245 114

原创 熵权法详细讲解+Python代码实现

熵权法,物理学名词,按照信息论基本原理的解释,信息是系统有序程度的一个度量,熵是系统无序程度的一个度量;根据信息熵的定义,对于某项指标,可以用熵值来判断某个指标的离散程度,其信息熵值越小,指标的离散程度越大,该指标对综合评价的影响(即权重)就越大,如果某项指标的值全部相等,则该指标在综合评价中不起作用。因此,可利用信息这个工具,计算出各个指标的权重,为多指标综合评价提供依据。熵权法是一种客观的赋权方法,它可以靠数据本身得出权重依据的原理:指标的变异程度越小,所反映的信息量也越少,其对应的权值也应该越低

2024-09-16 10:51:08 13819 79

原创 数据挖掘实战-基于朴素贝叶斯算法构建真假新闻分类模型

本实验数据集来源于Kaggle,合并后的数据集共有44898条,5个变量。关于数据集数据集分为两个文件:Fake.csv(23502 条假新闻文章)True.csv(21417 篇真实新闻文章)数据集列:标题:新闻文章的标题文本:新闻文章的正文主题:新闻文章的主题日期:新闻文章的发布日期。

2024-09-13 13:38:21 11691 91

原创 数据分析案例-视频游戏销量数据集可视分析

本实验数据集来源于Kaggle,原始数据集共有64016条,14个变量,各变量含义如下:img是vgchartz.com网站上游戏封面图片的URL(类型:字符串)。title是游戏的名称(类型:字符串)。console是指游戏为(类型:字符串)发布的控制台。genre是指游戏的类型(类型:字符串)。publisher是游戏的供应商(类型:字符串)developer是游戏的开发商(类型:字符串)critic_score是指Metacritic评分(0-10范围)(实数)。

2024-09-10 14:29:16 10096 95

原创 TOPSIS法详细讲解+Python代码实现

TOPSIS法是一种常用的综合评价方法,能充分利用原始数据的信息,其结果能精确地反映各评价方案之间的差距。TOPSIS法引入了两个基本概念:理想解:设想的最优的解(方案),它的各个属性值都达到各备选方案中的最好的值;负理想解:设想的最劣的解(方案),它的各个属性值都达到各备选方案中的最坏的值。方案排序的规则是把各备选方案与理想解和负理想解做比较,若其中有一个方案最接近理想解,而同时又远离负理想解,则该方案是备选方案中最好的方案。TOPSIS通过最接近理想解且最远离负理想解来确定最优选

2024-09-07 15:47:36 10718 90

原创 【SPSS】基于因子分析法对葡萄酒数据进行分析

通过研究葡萄酒数据集做出以下分析:①使用因子分析对数据进行因子提取②构建葡萄酒分类模型wine样本数据集中是double类型的178 * 14矩阵包括了三种酒中13种不同成分的数量。文件中,每行代表一种酒的样本,共有178个样本,一共有14列,其中,第一个属性是类标识符,分别是1/2/3来表示,代表葡萄酒的三个分类。后面的13列为每个样本的对应属性的样本值。

2024-09-03 19:20:26 8728 84

原创 数据分析案例-2024年裁员数据集可视化分析

本实验数据集来源于Kaggle,原始数据集为2020-2024年裁员数据,共有3577条,12个变量,该数据集提供了不同公司的裁员信息。它包括以下几栏:Company:裁员发生的公司名称。Location_HQ:公司总部位置。Industry:公司所属的行业或部门。Laid_Off_Count:公司解雇的员工数量。Percentage:公司员工被解雇的百分比。Date:裁员发生的日期。Source:信息来源网址。Funds_Raised:公司募集资金的信息。

2024-08-25 15:20:55 11588 93

原创 基于Python爬虫+机器学习的长沙市租房价格预测研究

本实验数据集来源于房天下官网,通过使用python爬虫获取了长沙市的租房数据获取了房屋租金、交付方式、房屋户型、房屋面积、装修情况、校区、地址、配套设施、房源亮点等字段信息,具体如下图所示。

2024-08-12 16:12:28 12068 128

原创 已解决AttributeError: module ‘emoji‘ has no attribute ‘get_emoji_regexp‘

将emoji库降低为2.0.0之前的版本即可,例如使用命令pip install emoji==1.7.0

2024-08-06 08:32:55 10552 110

原创 数据挖掘实战-基于Prophet时间序列模型预测阿里巴巴股票价格趋势

Prophet 是由 Facebook 开发的一个开源时间序列预测库,设计考虑了业务场景中的时间序列特点,如季节性变化、假日效应和趋势变化。Prophet 特别适合处理日级别(或以上频率)的时间序列数据,并且在处理缺失数据和异常值方面表现出色。安装学习文档github地址:https://github.com/facebook/prophet文档地址:http://facebook.github.io/prophet。

2024-08-02 09:02:32 12883 79

原创 数据分析案例-2024 年热门动漫数据集可视化分析

本数据集来源于Kaggle,原始数据集共有1000条,22个变量。该数据集全面概述了 2024 年热门动漫,对于构建推荐系统、可视化动漫流行度和评分趋势、预测评分和流行度等非常有用。该数据集包含 22 个特征:Score:分配给每个动漫标题的评级或分数。Popularity:衡量每部动漫在观众中的受欢迎程度。Rank:数据集中每个动漫标题的排名。Members:与每部动漫相关的会员或观众数量。Description:每部动漫的情节和主题的简要概述或摘要。

2024-07-17 11:39:48 12723 110

原创 层次分析法详细讲解+Python代码实现

层次分析法(Analytic HierarchyProcess,简称AHP)是对一些较为复杂、较为模糊的问题作出决策的简易方法,它特别适用于那些难于完全定量分析的问题它是美国运筹学家 T.L. Saaty 教授于上世纪 70年代初期提出的一种简便、灵活而又实用的多准则决策方法。

2024-07-13 16:41:04 9870 71

原创 数据分析案例-2024 年全电动汽车数据集可视化分析

本数据集来源于Kaggle,原始数据集共有177866条数据,17个变量。该数据集显示了目前通过华盛顿州许可部 (DOL) 注册的电池电动汽车 (BEV) 和插电式混合动力电动汽车 (PHEV)。电池电动汽车 (BEV) 是一种全电动汽车,使用一个或多个电池来存储电能,为电机提供动力,并通过将车辆插入电源进行充电。插电式混合动力汽车 (PHEV) 是一种使用一个或多个电池为电动机提供动力的车辆;使用另一种燃料,例如汽油或柴油,为内燃机或其他推进源提供动力;并通过将车辆插入电源来充电。

2024-07-09 18:14:02 12218 87

原创 使用CiteSpace软件对知网文献进行关键词共现/聚类/突现分析

一、基本概念CiteSpace(引文空间)是一款专注于分析科学分析中蕴含的潜在知识的软件。它是在科学计量学、数据可视化背景下逐渐发展起来的引文可视化分析软件。通过可视化的手段,CiteSpace能够呈现科学知识的结构、规律和分布情况,并因此将这种分析得到的可视化图形称为“科学知识图谱”。二、主要功能和用途知识图谱构建:根据科学文献的引用关系,CiteSpace可以生成知识图谱,帮助研究人员更好地理解学术领域中不同文献之间的联系和演化过程。主题聚类分析。

2024-07-03 16:34:59 11600 98

原创 体验升级:扫描全能王智能高清滤镜2.0全面测评

经过对扫描全能王智能高清滤镜2.0的深入测评,我们不难看出其在文档扫描领域的出色表现。这款产品不仅运用了先进的深度学习技术和多尺度感知融合方法,提升了文档的清晰度、去除了透字效果,还在文档处理效果和颜色保留效果上进行了全面升级。在实际使用中,智能高清滤镜2.0展现了强大的处理能力和高效的工作效率,无论是处理带有褶皱、阴影或透字的复杂文档,还是进行曲面矫正和颜色还原,都能达到令人满意的效果。这种高效且准确的文档处理能力,对于需要频繁处理文档的职场人士和专业人士来说,无疑是一大福音。

2024-07-01 07:59:06 15323 83

原创 【SPSS】基于RFM+Kmeans的电商客户价值聚类分析

使用RFM模型+聚类算法对电商客户进行分群,进行精准营销。

2024-06-24 09:20:13 13108 86

原创 基于文本挖掘的卡塔尔世界杯赛事网络舆情演变与趋势预测

本文通过爬取微博、B站、咪咕等视频平台上卡塔尔世界杯赛事相关博文数据和视频评论,在数据预处理中进行了基于原创文本量、点赞量、评论量、转发量、ip属地统计量的统计分析,并通过分析不同时期的相关数据量发展趋势划分了三个热点事件发展阶段,发展时期、爆发时期、消亡时期。

2024-06-18 17:11:01 9177 87

原创 数据分析案例-钻石数据集可视化分析

本实验数据集来源于Kaggle,原始数据集共有53940条数据,10个变量,各变量解释如下:carat:克拉是衡量钻石重量的单位。一克拉相当于200毫克。cut:钻石的切割指的是它的比例、对称和抛光。这是决定钻石亮度和亮度的关键因素。color:钻石的颜色是指钻石是否有颜色。美国宝石学会(GIA)将钻石的颜色分为D级(无色)到Z级(浅黄色或棕色)。clarity:净度衡量钻石内部缺陷(内含物)和外部瑕疵(瑕疵)的存在。

2024-06-12 08:37:33 11437 90

原创 数据挖掘实战-基于Catboost算法的艾滋病数据可视化与建模分析

本数据集来源于Kaggle,数据集包含有关被诊断患有艾滋病的患者的医疗保健统计数据和分类信息。该数据集最初于 1996 年发布。time:失败或审查的时间trt:治疗指标(0 = 仅 ZDV;1 = ZDV + ddI,2 = ZDV + Zal,3 = 仅 ddI)age:基线年龄(岁)wtkg:基线时的体重(公斤)hemo:血友病(0=否,1=是)homo:同性恋活动(0=否,1=是)drugs:静脉注射药物使用史(0=否,1=是)karnof:卡诺夫斯基分数(范围为 0-100)

2024-06-07 21:32:27 11412 53

原创 数据挖掘实战-基于长短期记忆网络(LSTM)的黄金价格预测模型 | 97% 准确度

本实验基于Kaggle上提供的从2013年到2023年的黄金价格数据集,运用长短期记忆网络(LSTM)构建了黄金价格预测模型。该数据集详细记录了每日的黄金价格信息,包括开盘价、收盘价、高点、低点和交易量等,为模型的训练提供了丰富的数据支持。

2024-06-04 08:33:51 13835 90

原创 数据分析案例-在线食品订单数据可视化分析与建模分类

本实验数据集来源于Kaggle在线食品订单数据集该数据集包含一段时间内从在线订餐平台收集的信息。它包含与职业、家庭规模、反馈等相关的各种属性。Age:顾客的年龄。Gender:客户的性别。Marital Status:客户的婚姻状况。Occupation:客户的职业。Monthly Income:客户的月收入。Educational Qualifications:客户的教育资格。Family size:客户家庭中的人数。latitude:客户所在位置的纬度。

2024-05-31 21:08:00 10705 100

原创 【SPSS】基于因子分析法对水果茶调查问卷进行分析

本次数据集来源于天池网,数据集是一份关于水果茶调查问卷中的一道量表题数据,共有1381条数据,9个维度,每个维度值范围为1-5,具体信息如下表:属性名称数据类型名称Int整数类型 值范围1-5包装Int整数类型 值范围1-5品质Int整数类型 值范围1-5价格Int整数类型 值范围1-5口味Int整数类型 值范围1-5制作过程透明Int整数类型 值范围1-5服务态度Int整数类型 值范围1-5网络热度Int整数类型 值范围1-5。

2024-05-29 22:01:54 9827 87

原创 数据挖掘实战-基于余弦相似度的印度美食推荐系统

印度美食由印度次大陆本土的各种地区和传统美食组成。由于土壤、气候、文化、种族和职业的多样性,这些菜肴差异很大,并使用当地可用的香料、香草、蔬菜和水果。印度食物也深受宗教(特别是印度教)、文化选择和传统的影响。本数据集来源于Kaggle,原始数据集共有255条,8个变量,各变量含义解释如下:name : 菜肴名称ingredients:主要使用成分diet:饮食类型 - 素食或非素食prep_time : 准备时间Cook_time : 烹饪时间。

2024-05-27 16:39:05 9565 88

原创 数据挖掘实战-基于内容协同过滤算法的电影推荐系统

本研究通过构建并优化基于内容协同过滤算法的电影推荐系统,成功实现了对用户个性化电影推荐需求的精准满足。实验结果表明,该系统能够结合电影内容特征和用户行为数据,为用户提供更加符合其兴趣和偏好的电影推荐。相较于单一的推荐方法,该系统展现出了更高的推荐准确性和用户满意度,从而验证了内容协同过滤算法在电影推荐系统中的有效性和优越性。

2024-05-24 16:24:03 17410 87

原创 618编程书单推荐:解锁你的编程潜能

亲爱的开发者们,👋在这个快速发展的技术时代,不断学习和提升自己的编程技能是每位程序员的必修课。今天,我为大家精心挑选了一系列编程技术书籍,它们将是你技术成长道路上的宝贵财富。

2024-05-22 16:29:38 8850 75

原创 大数据分析案例-基于xgboost算法构建互联网防火墙异常行为识别模型

随着互联网的快速发展,网络安全问题日益凸显。互联网防火墙作为网络安全的第一道防线,负责监控和过滤进出网络的数据包,以阻止恶意攻击和非法访问。然而,随着网络攻击手段的不断更新和复杂化,传统的防火墙技术已难以满足日益增长的安全需求。因此,开发一种高效、智能的异常行为识别模型对于提升防火墙的防护能力具有重要意义。 近年来,机器学习算法在各个领域取得了显著的成功,尤其在处理大规模、高维度数据时展现出了强大的优势。XGBoost作为一种基于梯度提升决策树(Gradient Boosting Decisi

2024-05-21 17:00:50 9380 81

原创 基于Python爬虫+机器学习技术的杭州租房价格预测建模研究

本研究旨在结合Python爬虫和机器学习技术,对杭州租房价格进行预测建模与优化研究。通过抓取租房网站上的数据,提取出影响租房价格的关键因素,并利用机器学习算法构建预测模型。通过对模型的优化和验证,我们可以更加准确地预测租房价格,为租房者和房东提供有价值的参考信息,同时也为房地产市场的研究和决策提供数据支持。

2024-05-19 09:25:02 12502 116

原创 数据分析案例-印度美食数据可视化分析

印度美食由印度次大陆本土的各种地区和传统美食组成。由于土壤、气候、文化、种族和职业的多样性,这些菜肴差异很大,并使用当地可用的香料、香草、蔬菜和水果。印度食物也深受宗教(特别是印度教)、文化选择和传统的影响。本数据集来源于Kaggle,原始数据集共有255条,8个变量,各变量含义解释如下:name : 菜肴名称ingredients:主要使用成分diet:饮食类型 - 素食或非素食prep_time : 准备时间Cook_time : 烹饪时间。

2024-05-16 09:22:13 17139 41

原创 数据挖掘实战-基于决策树算法构建银行贷款审批预测模型

本数据集来源于Kaggle,在这个贷款状态预测数据集中,我们有以前根据property Loan的属性申请贷款的申请人的数据。银行将根据申请人的收入、贷款金额、以前的信用记录、共同申请人的收入等因素来决定是否向申请人提供贷款。我们的目标是建立一个机器学习模型来预测申请人的贷款被批准或被拒绝。原始数据集共有381条,13个变量。各变量含义如下:Loan_ID:唯一的贷款ID。Gender:男性或女性。Married:天气结婚(是)或不结婚(否)。Dependents:依赖于客户端的人数。

2024-05-13 09:45:32 16842 119

原创 大数据分析案例-基于随机森林算法构建银行贷款审批预测模型

本项目旨在利用借款人的历史信用记录、财务状况、个人背景等多维度信息,通过机器学习和数据分析技术,构建一个自动化的贷款审批流程。该模型能够快速、准确地评估申请人的信用风险,帮助银行做出更加明智的贷款决策,减少坏账风险,提高贷款业务的盈利能力。此外,该模型还有助于银行实现客户细分和个性化服务。通过对不同申请人群体进行特征分析和风险预测,银行可以更加精准地满足不同客户群体的需求,优化贷款产品设计和定价策略,提升客户满意度和忠诚度。

2024-05-10 08:34:51 8090 94

原创 数据挖掘实战-基于深度学习RNN+CNN的能源价格预测模型

数据集来源于Kaggle,原始数据集共有35064条,28个变量。在当今动态的能源市场中,准确预测能源价格对有效决策和资源配置至关重要。在这个项目中,我们使用先进的深度学习技术——特别是一维卷积神经网络(CNN)和循环神经网络(RNN)——深入研究预测分析领域。通过利用能源价格数据中的历史模式和依赖关系,我们的目标是建立能够高精度预测未来能源价格的模型。通过实验,我们发现每种方法都有自己的优点和局限性。SimpleRNN提供了一个简单且可解释的体系结构,但可能会与长期依赖关系作斗争。

2024-05-07 14:22:22 9820 95

原创 数据挖掘实战-基于CNN深度学习算法构建英文文本分类模型

随着互联网和社交媒体的快速发展,大量的英文文本数据不断产生,如博客、新闻、论坛帖子等。对这些文本数据进行分类和组织成为一项重要的任务,有助于提高信息检索的效率,更好地理解用户需求,以及为各种应用提供有价值的信息。传统的文本分类方法通常基于手工特征工程,然而这种方法不仅耗时,而且对于大规模和高维度的数据集效果有限。近年来,深度学习技术的崛起为文本分类带来了新的解决方案。卷积神经网络(CNN)作为一种在图像识别中取得巨大成功的深度学习算法,也被广泛应用于自然语言处理领域,特别是文本分类任务。

2024-05-03 16:39:02 11032 98

原创 数据分析案例-全球表面温度数据可视化与统计分析

本数据集来源于Kaggle,原始数据集共有144条,19个变量。关于本数据集数据来自美国国家航空航天局GISS表面温度分析(GISTEMP v4)。这些数据集是全球和半球月平均值和区域年平均值的表。他们结合了陆地表面、空气和海洋表面的水温异常(陆地-海洋温度指数,L-OTI)。表中的数值是与相应的1951-1980年平均值的偏差。GISS地表温度分析版本4 (GISTEMP v4)是对全球地表温度变化的估计。

2024-04-29 22:18:24 13196 130

原创 大数据分析案例-基于Catboost+LGBM算法构建银行客户流失预测模型

本项目旨在通过分析某银行客户数据集,通过可视化分析找出影响客户流失的因素,最后实验机器学习中的Catboost、XGBoost、LGBM等集成算法构建银行客户流失预测模型,提高银行客户管理水平。心得与体会:通过这次Python项目实战,我学到了许多新的知识,这是一个让我把书本上的理论知识运用于实践中的好机会。原先,学的时候感叹学的资料太难懂,此刻想来,有些其实并不难,关键在于理解。在这次实战中还锻炼了我其他方面的潜力,提高了我的综合素质。

2024-04-26 18:48:56 9309 98

毕设项目基于RFM-Kmeans算法对超市用户细分(源代码+54w条数据+3500字实验报告).rar

本实验数据集是某国际大型超市的用户消费记录数据,原始数据集共有541909条,8个变量。具体各变量解释如下: InvoiceNo:该包含每个零售发票或交易的唯一标识符或代码。它有助于跟踪和识别个人销售交易。 StockCode:该列包含每个交易中出售的特定产品或项目的代码或标识符。它允许将产品与其各自的交易关联起来。 Description:这一栏包含正在出售的产品或物品的文字描述或名称。它提供了关于产品的更详细的信息。 Quantity:这一列表示在每次交易中销售的产品或物品的数量。它表示该产品的购买量。 InvoiceDate:这一列记录了每个零售发票或交易发生的日期和时间。它提供了销售发生时间的时间戳。 UnitPrice:这一列包含了所售产品或项目的单价。它代表一单位产品的成本。 CustomerID:该列包含进行购买的每个客户的唯一标识符或代码。它允许跟踪特定于客户的交易。 Country:这一列包含进行购买的客户所在国家的名称或代码。它提供客户的地理信息。

2024-09-20

大数据岗位大厂面试真题附含答案.rar

在大数据领域的职场竞争中,通过大厂的面试是每个求职者都渴望的成就。为了帮助求职者更好地准备面试,以下是一份大数据岗位大厂面试真题资源介绍,涵盖常见问题、解析及参考答案。

2024-09-20

《数据采集与网络爬虫》大作业-7个爬虫案例代码+实验报告.rar

本次的7个python爬虫小案例涉及到了re正则、xpath、beautiful soup、selenium等知识点,非常适合刚入门python爬虫的小伙伴参考学习。

2024-06-29

100万条用于改善城市规划的城市交通综合数据集.zip

该数据集包括有关公共交通使用情况、交通流量、共享单车计划和行人流动的详细信息,并添加了天气状况、节假日和活动等其他背景因素。该数据集旨在支持城市规划人员和交通部门做出数据驱动的决策,以改善城市出行并减少交通拥堵。共有15跟变量 时间戳:记录的日期和时间。 public_transport_usage:每小时公共交通用户数量。 Traffic_flow:每小时经过特定点的车辆数量。 bike_sharing_usage:每小时使用共享单车服务的用户数量。 pedestrian_count:每小时记录的行人数量。 weather_conditions:记录时的天气状况(例如,晴、雨、雪、雾)。 day_of_week:星期几(例如星期一、星期二)。 假日:指示该日是否为假日(如果是假日则为 1,否则为 0)。 事件:发生的事件类型(例如,无、音乐会、体育、节日)。 温度:摄氏度。 湿度:湿度百分比。 road_incidents:每小时报告的道路事故数量。

2024-06-29

数据挖掘-基于朴素贝叶斯算法的电信客户流失分析预测模型(数据集+代码+8000字实验报告).rar

本次研究数据来自kaggle开源数据网站,共有数据7043条,其中顾客属性21条。 对于以上属性,我们可以大致将其分为四类。第一类:客户个人信息(CustomerID、gender、SeniorCitizen、Partner、Dependents);第二类:客户账户信息(tenure、Contract、PaperlessBilling、PaymentMethod、MonthlyuCharges、TotalCharges);第三类:客户订阅服务(PhoneService、MultipleLines、InternetService、OnlineSecurity、OnlineBackup、DeciveProtection、TechSupport、SteamingTV、SteamingMovies);第四类:客户流失评价指标(Churn)。

2024-06-29

基于人气与协同过滤的图书推荐系统研究与实践(数据集+代码).rar

随着信息技术的不断发展,人们获取图书信息的方式发生了巨大变化。传统的图书推荐方式主要依赖于专业书评和图书馆员的推荐,但这种方式面临着信息获取成本高、推荐精准度低等问题。而随着互联网的普及,大量用户生成的数据成为了个性化推荐系统的宝贵资源。 本数据集来源于Kaggle,原始数据集中有3个文件,这些文件是从一些图书销售网站中提取的。 Books——首先是关于书籍的,它包含了所有与书籍相关的信息,比如作者、书名、出版年份等。 Users——第二个文件包含注册用户的信息,如用户id、位置。 ratings——评级包含诸如哪个用户对哪本书给出了多少评级之类的信息。

2024-06-20

数据挖掘实战-基于word2vec的短文本情感分析(数据集+代码+9000字实验报告).rar

当前,随着社交媒体的迅猛发展,人们也越来越习惯于在论坛、博客、微博等社交网络中发表主观性的言论,用于表达自己对周围所见所闻的观点和看法,从而形成了大量带有主观情感倾向性的文本。这些海量的主观性文本对人们的行为会产生重要影响,因而人们渴望对其进行自动挖掘和处理。然而,这些文本大多表现为非结构化的或半结构化的形式,使得自动地分析和抽取其中蕴含的情感倾向性成为一项极具挑战性的课题。如果仅仅通过人工获取并分析这些评论中的情感信息,效率将会十分低下,无法满足实际的需求.自然语言处理领域存在一种可行的方法———情感分析(sentiment analysis),情感分析大致兴起于世纪年代末,在进入本世纪后,人们开始普遍认识到情感分析的巨大研究价值和潜能,经过二十年的发展,情感分析已经成为数据挖掘、机器学习、自然语言处理等领域的研究热点之一。

2024-06-20

基于Bagging集成学习方法的情绪分类预测模型研究(数据集+代码).rar

本数据集来源于Kaggle,原始数据集共有5937条,2个特征变量,一个是评论内容,一个是情绪标签。 本研究旨在探讨基于Bagging集成学习方法的情感分类预测模型。通过结合多个基分类器的输出,我们可以期望获得更为鲁棒和泛化能力强的情感分类模型,从而更好地适应不同领域和文本类型的情感分析任务。此外,通过采用Bootstrap采样技术,Bagging还能够有效减少过拟合的风险,提高模型的稳定性。 在实验中,我们将选择合适的基分类器,并通过Bagging方法进行组合,比较其性能与单一分类器的差异。通过深入研究基于Bagging的情感分类模型,我们旨在为情感分析领域的研究和应用提供新的思路和方法,从而更好地应对大规模文本数据的情感分类问题。

2024-06-20

基于记忆与模型协同过滤的电影推荐系统研究与实践(数据集+代码).rar

随着信息技术的不断发展,人们在日常生活中面临着越来越多的选择,例如在电影、音乐、图书等娱乐领域。为了帮助用户更好地发现符合其兴趣和偏好的内容,推荐系统应运而生。推荐系统通过分析用户的历史行为、兴趣和偏好,向用户提供个性化的推荐内容,从而提升用户体验和平台的粘性。 本数据集来源于kaggle,原始数据集共有2个,movies.csv和ratings.csv,共有100836条,6个特征变量,各变量含义如下: userId:用户ID movieId:电影ID rating:用户给出的评分 timestamp:时间戳,即评论时间 title:电影名称 genres:电影类型

2024-06-20

基于LDA主题分析的《老友记》情景喜剧数据集的建模分析(数据集+代码).rar

本数据集来源于kaggle,《老友记》是一部美国情景喜剧,由大卫·克兰和玛尔塔·考夫曼创作,于1994年9月22日至2004年5月6日在美国全国广播公司播出,共十季。这部剧由詹妮弗·安妮斯顿、柯特妮·考克斯、丽莎·库卓、马特·勒布朗、马修·佩里和大卫·修默主演,围绕着六个住在纽约曼哈顿的二三十岁的朋友展开。该系列由Bright/Kauffman/Crane Productions与华纳兄弟电视公司联合制作。最初的执行制片人是凯文·s·布莱特、考夫曼和克兰。原始数据集共有67373条,6个特征变量,各变量含义如下: text:对话作为文本 speaker:演讲者的名字 season:季节号 episode:第1集 scene:场景编号 utterance:话语数

2024-06-20

基于情感分析+聚类分析+LDA主题分析对服装产品类的消费者评论分析(数据集+代码).rar

本数据集来源于kaggle,原始数据集共有49338条,9个特征变量,各变量含义如下: Title:评论标题 Review:评论内容 Cons_rating:评价评级 Cloth_class:服饰类型 Materials:布料类型 Construction:布料结构 Color:颜色 Finishing:含义未知,暂且忽略 Durability:耐用性

2024-06-20

数据分析案例-基于服饰行业中消费者行为和购物习惯的可视化分析(数据集+代码).rar

本次实验数据集来源于kaggle,原始数据集共有3900条,18个变量,各变量含义解释如下: Customer ID:分配给每个客户的唯一标识符,有助于跟踪和分析他们随时间的购物行为。 Age:客户的年龄,为细分和有针对性的营销策略提供人口统计信息。 Gender:客户的性别认同,是影响产品偏好和购买模式的关键人口变量。 Item Purchased:客户在交易过程中选择的特定产品或商品。 Category:所购买商品所属的大致分类或组(例如服装、电子产品、杂货)。 Purchase Amount (USD):交易的货币价值,以美元 (USD) 表示,表示所购买商品的成本。 Location:购买的地理位置,提供对区域偏好和市场趋势的洞察。 Size:所购商品的尺码规格(如果适用),与服装、鞋类和某些消费品相关。 Color:与购买的商品相关的颜色变体或选择,影响客户偏好和产品可用性。 Season:购买商品的季节相关性(例如春季、夏季、秋季、冬季),影响库存管理和营销策略。 Review Rating:客户对所购商品的满意度提供的数字或定性评估。

2024-06-20

数据分析案例-汽车客户信息数据可视化分析(数据集+代码).rar

本数据集来源于kaggle,原始数据集共有8068条,11个特征变量,各变量含义解释如下: ID:客户ID Gender:客户性别 Ever_Married:客户婚姻状况 Age:客户年龄 Graduated:客户是毕业生吗? Profession:客户的职业 Work_Experience:多年工作经验 Spending_Score:客户的消费评分 Family_Size:客户家庭成员人数(含客户) Var_1:客户的匿名类别 Segmentation:(目标)客户的客户群

2024-06-20

基于Python爬虫+词云图+情感分析对某东上完美日记的用户评论分析(数据集+代码).rar

随着互联网和社交媒体的发展,用户评论成为了消费者表达自己意见和情感的主要途径之一。对于企业来说,深入了解用户对其产品或服务的看法可以帮助他们更好地了解市场需求、产品改进的方向,以及消费者的情感倾向。因此,对用户评论进行分析已经成为了市场研究和商业决策的重要手段之一。 完美日记作为一家知名的化妆品品牌,其在社交媒体和电商平台上拥有大量的用户评论。 在本次实验中,爬虫技术用于获取完美日记的用户评论数据,词云图技术用于可视化评论中的关键词频率,情感分析技术用于判断评论的情感倾向。结合这些技术,可以从大量的评论数据中提取出有关产品、品牌和消费者情感的有价值信息。

2024-06-20

数据挖掘实战-基于KMeans算法对超市客户进行聚类分群(数据集+代码).rar

超市作为零售业的主要形式之一,在现代都市生活中扮演着重要角色。随着社会经济的发展和消费者需求的变化,超市经营者越来越意识到了客户细分的重要性。不同的客户群体有着不同的购物习惯、消费行为和偏好,了解并满足不同客户群体的需求,可以帮助超市提供更加个性化的服务和商品推荐,从而提升客户的满意度和忠诚度,促进超市的经营发展。 为了实现客户细分,研究者和业界常常采用聚类分析的方法。KMeans算法作为一种常见的聚类算法,具有计算效率高、易于理解和实现的优点,被广泛应用于客户细分领域。 因此,本实验旨在使用KMeans算法对超市客户进行聚类分群,从而识别出不同的客户群体,并分析这些群体的特征和行为习惯。通过这种客户细分的方式,超市经营者可以更好地了解其客户群体,优化产品陈列和推广策略,提供更加个性化的购物体验,增加客户的购买频率和客单价,从而实现超市业务的增长和盈利能力的提升。

2024-06-20

数据分析案例-顾客购物数据可视化分析(数据集+代码).rar

本数据集来源于kaggle,原始数据集共有99457条,10个特征变量,各变量含义解释如下: Invoice_no:发票编号。标称。字母“I”和唯一分配给每个操作的 6 位整数的组合。 customer_id:客户编号。标称。字母“C”和唯一分配给每个操作的 6 位整数的组合。 gender:客户性别的字符串变量。 age:顾客年龄的正整数变量。 category:所购买产品的类别的字符串变量。 quantity:每笔交易的每种产品(商品)的数量。数字。 price:单价。数字。每单位产品价格以土耳其里拉 (TL) 表示。 payment_method:用于交易的支付方式(现金、信用卡或借记卡)的字符串变量。 Invoice_date:发票日期。生成交易的日期。 Shopping_mall:进行交易的购物中心名称的字符串变量。

2024-06-20

数据分析案例-数据分析师岗位招聘信息可视化(数据集+代码).rar

本次实验数据集来源于xx招聘网中关于数据分析师相关岗位的招聘信息,共计1600条数据,每条招聘信息包括岗位名称、公司、薪资、城市、工作类型、学历要求、工作经验要求等共51个字段。

2024-06-20

基于Pytorch深度学习的脑肿瘤分类识别(数据集+代码+4000字实验报告).rar

本实验旨在利用深度学习方法,特别是卷积神经网络(CNN),进行脑肿瘤图片的识别和分类,以实现以下目标: 1.提高脑肿瘤识别的准确性:通过训练深度学习模型,使其能够准确地识别不同类型的脑肿瘤,包括恶性和良性肿瘤。通过提高准确性,可以辅助医生进行更精确的诊断和制定个性化的治疗方案。 2.探索深度学习模型的鲁棒性:在面对不同的脑肿瘤图像数据集时,评估深度学习模型的鲁棒性和泛化能力。通过研究模型的鲁棒性,可以提高在实际应用中的可靠性,并应对不同来源、不同质量和不同噪声水平的脑肿瘤图像数据。 3.比较不同深度学习架构的性能:尝试使用不同的深度学习架构,如常见的卷积神经网络(CNN)模型和一些最新的架构,比较它们在脑肿瘤分类任务上的性能和效果。通过对比不同模型的表现,可以确定最适合该任务的模型架构,为后续的研究和应用提供参考。 4.评估深度学习模型在临床实践中的应用价值:将深度学习模型应用到真实世界的脑肿瘤影像数据中,并与传统的医学影像诊断方法进行对比。通过评估深度学习模型在临床实践中的准确性和效率,可以为医生提供辅助诊断的工具,并改善脑肿瘤患者的治疗结果和预后。

2024-06-20

数据分析案例-航空公司满意度数据可视化(数据集+代码).rar

本数据来源于Kaggle,原始数据共有103904条,共23个特征,具体各变量含义如下: Gender:乘客性别(女、男) Customer Type:客户类型(Loyal customer, disloyal customer) Age:乘客的实际年龄 Type of Travel:乘客的飞行目的(个人旅行、商务旅行) Class:乘客飞机的旅行等级(商务舱、经济舱、经济舱) Flight Distance:本次行程的飞行距离 Inflight wifi service:对机上wifi服务的满意度(0:不适用;1-5) Departure/Arrival time convenient:对出发/到达时间方便的满意度 Ease of Online booking:在线预订的满意度 Gate location:对Gate location的满意度 Food and drink:食物和饮料的满意度 Online boarding:网上寄宿的满意度 Seat comfort:座椅舒适度满意度 Inflight entertainment:机上娱乐满意度

2024-06-20

基于爬虫+词云图+Kmeans聚类+LDA主题分析+社会网络语义分析对大唐不夜城用户评论进行分析(数据集+代码).rar

本项目是基于携程网中关于大唐不夜城评论的文本分析,项目中用到了Python爬虫、词频分析、词云图分析、kmeans聚类、LDA主题分析、情感分析、社会网络语义分析等。 数据目标是获取携程网中关于大唐不夜城景点的评论文本数据 本次实验我们使用了爬虫、词云图、情感分析、LDA主题分析、TF-IDF+Kmeans、社会网络语义分析等对大唐不夜城的评论进行了分析。

2024-06-20

python实现基于长短期记忆网络LSTM模型预测茅台股票价格趋势(数据集+代码).rar

随着金融数据的不断增长和复杂化,传统的统计方法和机器学习技术面临着挑战。深度学习算法通过多层神经网络的构建,以及大规模数据的训练和优化,可以从数据中提取更加丰富、高级的特征表示,从而提供更准确、更稳定的预测和决策能力。 长短期记忆网络 (Long Short-Term Memory, LSTM)是一种递归神经网络 (RNN) 的类型,专门用于处理序列预测问题。与传统的RNN不同,LSTM可以有效地捕捉时间序列数据中的长期依赖关系,因此在金融领域非常有用。 这些网络包含能够在长序列中存储信息的记忆单元,使其能够克服传统RNN中的梯度消失问题。LSTM能够记住和利用过去的信息,使其适用于分析金融时间序列数据,如股票价格或经济指标。 应用案例:LSTM在金融领域有多种应用,例如股票价格预测、算法交易、投资组合优化和欺诈检测。它们还可以分析经济指标以预测市场趋势,帮助投资者做出更明智的决策。

2024-06-20

Python3实现基于ARIMA模型来预测茅台股票价格趋势(数据集+代码).rar

ARIMA模型简介 ARIMA(Autoregressive Integrated Moving Average)模型是一种广泛使用的时间序列分析方法,它可以用于对未来的数据进行预测。 ARIMA模型由自回归模型(AR模型)、差分整合模型(I模型)和移动平均模型(MA模型)组成,因此也被称为ARIMA(p,d,q)模型。其中,p表示自回归阶数,d表示差分阶数,q表示移动平均阶数。 具体来说,ARIMA模型可以通过以下步骤进行建模: 数据预处理:对时间序列进行平稳性检验,如果不满足平稳性,则进行差分操作。 模型选择:根据样本自相关图(ACF)和偏自相关图(PACF)选择合适的p、d、q值。 参数估计:使用极大似然估计或最小二乘法对模型参数进行估计。 模型检验:对模型的残差进行自相关性和正态性检验,如果不符合要求则需要重新选择模型或调整参数。 模型预测:根据已有数据和已经估计好的参数进行未来数据的预测。 ARIMA模型在金融、经济、气象、交通等领域都有广泛应用,特别是在金融领域,ARIMA模型可以用于股票价格、汇率、利率等方面的预测。

2024-06-20

基于Tomotopy构建LDA主题模型(数据集+代码).rar

tomotopy 是 tomoto(主题建模工具)的 Python 扩展,它是用 C++ 编写的基于 Gibbs 采样的主题模型库。支持的主题模型包括 LDA、DMR、HDP、MG-LDA、PA 和 HPA, 利用现代 CPU 的矢量化来最大化速度。 当前版本的 tomotopy 支持的主题模型包括: 潜在狄利克雷分配(LDAModel) 标记的 LDA(LLDA 模型) 部分标记的 LDA(PLDA 模型) 监督LDA(SLDA模型) Dirichlet 多项回归 (DMRModel) 广义狄利克雷多项回归 (GDMRModel) 分层狄利克雷过程 (HDPModel) 分层LDA(HLDA模型) 多粒 LDA(MGLDA 模型) 弹珠盘分配(PAModel) 分层 PA (HPAModel) 相关主题模型(CTModel) 动态主题模型 (DTModel) 基于伪文档的主题模型(PTModel)。

2024-06-20

数据分析案例-数据科学相关岗位薪资可视化分析(数据集+代码).rar

本数据集来源于kaggle,原始数据集共有3755条, 11列特征,各特征具体含义如下: work_year:发工资的年份。 experience_level:该职位在一年内的经验水平 employment_type:角色的雇佣类型 job_title:这一年中工作的角色 工资:支付的工资总额 salary_currency:作为ISO 4217货币代码支付的工资的货币 salaryinusd:以美元计算的工资 employee_residence:作为ISO 3166国家代码,雇员在工作年度的主要居住国家 remote_ratio:远程完成的总工作量 company_location:雇主的主要办事处或承包分公司所在的国家 company_size:该年度为该公司工作的人数中位数

2024-06-20

数据分析案例-BI工程师招聘岗位信息可视化分析(数据集+代码).rar

本次实验数据集来源于智联招聘网中关于BI工程师岗位的招聘信息,共计1800条数据,每条招聘信息包括岗位名称、公司、薪资、城市、工作类型、学历要求、工作经验要求共7个字段。 实验工具 python3.10 jupyter notebook 总结 1.目前BI工程师岗位在智联招聘网站的平均薪资为13.5K,主要薪水区间大概在12-15K。 2.从城市岗位需求数量分布来看,BI工程师需求主要集中在北京、上海、深圳、广州区域;各国内排在前面的分别为深圳(15.63K)、上海(15.62K)、北京(15.52)、杭州(12.07K)、成都(11.69K)、广州(11.19K)。 3.从工作年限的平均薪水和岗位需求数量来看,工作5-10年的资深BI工程师的平均薪水可以达到20K以上,其中大部分的工作需求年限为3-5年,平均薪水为15.12K。 4.从学历方面来看,最低学历需求主要以本科/大专为主,本科和大专学历要求的平均薪资分别为12.36K和13.71K,博士和硕士学历需求很少。 5.一些高薪的招聘企业,最高的可以给到30K~40K的薪酬水平,其中主要是互联网公司为主。

2024-06-20

用Python爬取电影数据并可视化分析(数据集+爬虫分析代码).rar

本次爬取的目标网站是阳光电影网https://www.ygdy8.net,用到技术为requests+xpath。主要获取的目标是2016年-2023年之间的电影数据。 IDE编辑器:vscode 发送请求:requests 解析工具:xpath 获取的字段信息有电影译名、片名、产地、类别、语言、上映时间、豆瓣评分、片长、导演、主演等,具体说明如下: 字段名 含义 Video_Name_CN 电影译名 Video_Name 电影片名 Video_Address 电影产地 Video_Type 电影类别 Video_language 电影语言 Video_Date 上映时间 Video_Number 电影评分 Video_Time 片长 Video_Daoyan 导演 Video_Yanyuan_list 主演列表

2024-06-20

数据分析案例-基于因子分析探究各省份中心城市经济发展状况(数据集+代码+实验报告).rar

因子分析法是一种寻找公共因子的模型分析方法,其目的是用少数几个因子去描述许多指标或因素之间的联系,将联系比较密切的几个因子变量归为同一类,每一类变量即为一个因子,用少数几个因子反映大部分的信息。运用这种模型方法,我们可以很方便的找出影响原有变量的主要因素有哪些。各省会城市通常是各省的经济、政治、文化中心,带动周边经济发展,是该省份其他地区经济和社会发展的“引路者”,由此吸引了很多人口到省会城市工作、定居。各个城市的常住人口的收入、生活便利情况受到很多因素的影响,如平均工资、房价、储蓄、医院情况等。通过因子分析模型,我们可以将这些指标进行归类,从而将影响该城市常住人口生活水平的指标进行简化。

2024-06-20

ROST NAT软件下载安装包.rar

ROST NAT软件下载安装包.rar

2024-06-20

ROST EA 1.9.0.4软件下载安装包.rar

ROST EA 1.9.0.4软件下载安装包.rar

2024-06-20

ROSTCM6软件下载安装包+使用说明.rar

ROSTCM6是武汉大学沈阳教授研发编码的国内目前唯一的以辅助人文社会科学研究的大型免费社会计算平台。该软件可以实现微博分析、聊天分析、全网分析、网站分析、浏览分析、分词、词频统计、英文词频统计、流量分析、聚类分析等一系列文本分析。

2024-06-20

基于TF-IDF+KMeans聚类算法构建中文文本分类模型(数据集+代码).rar

TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。简单来说就是:一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文章。这也就是TF-IDF的含义。 KMeans流程 1 随机选择K个簇中心点 2 样本被分配到离其最近的中心点 3 K个簇中心点根据所在簇样本,以求平均值的方式重新计算 4 重复第2步和第3步直到所有样本的分配不再改变

2024-06-20

数据分析案例-往届世界杯数据可视化(数据集+代码).rar

本案例利用数据可视化技术,对往届世界杯的丰富数据进行了深入分析。涵盖了历届世界杯的获奖情况、比赛数据、观众人数、主办方详情等多维度信息,并通过图表、图形等直观方式展现数据。这一分析旨在帮助足球爱好者、数据分析师及体育行业从业者更深入地了解世界杯的历史趋势和规律。数据来源于FIFA官方及权威体育数据平台,确保分析结果的准确性和权威性。 数据集来源于天池,世界杯成绩信息表:WorldCupsSummary 包含了所有21届世界杯赛事(1930-2018)的比赛主办国、前四名队伍、总参赛队伍、总进球数、现场观众人数等汇总信息,包括如下字段: Year: 举办年份 HostCountry: 举办国家 Winner: 冠军队伍 Second: 亚军队伍 Third: 季军队伍 Fourth: 第四名队伍 GoalsScored: 总进球数 QualifiedTeams: 总参赛队伍数 MatchesPlayed: 总比赛场数 Attendance: 现场观众总人数 HostContinent: 举办国所在洲 WinnerContinent: 冠军国家队所在洲

2024-06-20

数据分析案例-大数据相关招聘岗位可视化分析(数据集+代码).rar

本案例围绕大数据领域的招聘市场进行了深入的数据分析,并通过可视化手段呈现了分析结果。数据涵盖了招聘岗位的数量、地区分布、薪资水平、技能要求等多个维度,旨在帮助求职者、招聘方及行业分析师快速了解当前大数据领域的招聘趋势和市场需求。 核心亮点: 全面数据:覆盖各大招聘平台及企业官网,确保数据的全面性和准确性。 多维分析:从数量、地区、薪资、技能等多个角度剖析大数据招聘市场。 可视化呈现:通过图表、地图等直观形式展示数据,便于理解和分析。 实用洞察:为求职者提供职业规划建议,为招聘方提供招聘策略参考。 应用场景: 求职者:了解大数据行业的热门岗位、薪资水平及技能要求,制定个人职业规划。 招聘方:把握市场趋势,优化招聘策略,提高招聘效率。 行业分析师:分析大数据行业的发展动态,为行业报告提供数据支持。 数据来源:各大招聘平台、企业官网及行业报告。 适用人群:求职者、招聘方、行业分析师及对此领域感兴趣的人士。

2024-06-20

数据分析案例-四川省旅游景点数据分析(数据集+代码).rar

本案例专注于对四川省旅游景点数据的深入分析,旨在通过数据可视化手段,全面揭示四川省旅游市场的特点、游客行为模式以及景点间的关联性和差异。数据包含景点的名称、星级、所在城市、票价、销量、热度等多个维度。 分析内容: 市场概况:分析四川省旅游景点的整体分布、数量及类型,了解旅游市场的基本面。 游客行为:通过游客对景点的访问量、停留时间等数据,分析游客的偏好和出行习惯。 景点关联:探究不同景点之间的关联性和竞争关系,识别热门旅游线路和区域。 趋势预测:基于历史数据,预测未来旅游市场的发展趋势和潜在机会。 可视化呈现: 采用柱状图、饼图、热力图、地图等多种可视化方式,直观展示分析结果,便于理解和沟通。 案例价值: 本案例不仅为旅游企业提供了深入了解四川省旅游市场的机会,还为政府决策、旅游规划以及游客出行提供了有力的数据支持,有助于促进四川省旅游业的持续发展。

2024-06-19

数据分析案例-停车场数据可视化分析(数据集+实验报告+代码).rar

本案例专注于停车场运营数据的可视化分析,通过对停车场的车位利用率、车辆进出记录、停车时长等关键数据进行深入分析,旨在提升停车场运营效率、优化客户体验以及实现资源合理配置。 分析内容: 车位利用率分析:通过统计不同时间段的车位使用情况,分析车位利用率的峰值与低谷,为停车场管理提供决策支持。 车辆进出模式:分析车辆进出的时间分布、车型占比等数据,了解停车场的使用规律,为优化停车流程提供依据。 停车时长统计:研究车辆的停车时长分布,分析停车需求的时间特点,为制定合理的收费标准提供参考。 可视化呈现: 案例利用柱状图、折线图、热力图等多种可视化技术,直观展示分析结果。通过动态交互图表,用户可以轻松查看不同时间、不同区域的车位使用情况,便于实时管理和调整。 案例价值: 本案例通过数据分析与可视化技术,有效提升了停车场的管理效率,帮助停车场管理者优化资源配置、提高服务质量。同时,案例也展示了数据可视化在分析复杂场景中的强大能力,为类似领域的数据分析提供了有价值的参考。

2024-06-19

数据分析案例-电影数据可视化分析(数据集+代码).rar

本案例聚焦于电影数据,通过一系列数据分析和可视化技术,深入探索电影市场的趋势、观众喜好以及电影类型、票房和口碑之间的关系。案例采用的数据集可能包含电影名称、导演、演员、类型、上映年份、票房收入、观众评分等关键信息。 分析内容: 市场趋势分析:分析近年来电影市场的票房变化趋势,了解不同年份的市场状况,并预测未来的市场走向。 类型与票房关系:研究电影类型(如动作、喜剧、科幻等)与票房收入之间的关联,发现最受欢迎的电影类型。 观众喜好分析:基于观众评分数据,分析观众对不同类型、不同导演或演员的偏好,为电影制作和投资提供策略建议。 关联性分析:探索电影票房、评分与导演、演员、上映时间等因素之间的潜在关系,发现影响电影成功的关键因素。 可视化呈现: 案例采用多种可视化技术,如条形图、饼图、散点图、时间序列图、网络图等,以直观、生动的方式展示分析结果。通过可视化,可以更容易地发现数据中的模式、趋势和关联关系,从而加深对电影市场的理解。

2024-06-19

实训-利用HTML+CSS做响应式项目网页.rar

随着移动设备的普及和互联网的快速发展,越来越多的用户开始使用各种设备(如手机、平板、桌面电脑等)来访问网页。因此,构建一个能够在不同屏幕尺寸和设备上良好显示的响应式网页变得尤为重要。本实训项目旨在通过HTML和CSS技术,制作一个响应式项目网页,以展示学生在前端开发方面的实践能力和技能。 页面布局设计:设计网页的整体布局,包括头部(Header)、主体内容(Main Content)、底部(Footer)等部分。确保布局在不同屏幕尺寸下都能保持清晰和美观。 HTML结构搭建:使用HTML5标准,构建网页的基本结构。包括页面元素的嵌套、标签的使用等。 CSS样式编写:利用CSS3技术,为网页添加样式。包括字体、颜色、背景、边框、阴影等效果的设置。同时,使用媒体查询(Media Queries)技术,实现响应式布局。 响应式布局实现:确保网页在不同屏幕尺寸下都能良好显示。通过调整布局、字体大小、图片尺寸等方式,使网页在移动设备、平板和桌面电脑上都能呈现出最佳效果。

2024-06-19

2022年冬奥会奖牌榜数据可视化分析(数据集+代码).rar

代码为.ipynb格式文件,用jupyter notebook打开。 2022年冬奥会奖牌榜的数据可视化分析,不仅是对体育赛事结果的直观展示,更蕴含了深远的研究意义。通过将复杂的奖牌数据转化为直观、易于理解的图表形式,我们能够更加清晰地看到各国体育实力、项目优劣以及奖牌分布的变化趋势,从而为体育科学研究和政策制定提供有力的数据支持。 这种可视化分析不仅有助于公众对冬奥会赛事有更全面的了解,更能激发大众对体育运动的热情和兴趣。通过对比不同国家的奖牌数量和项目分布,人们可以更加清晰地认识到各国在冰雪运动领域的优势和不足,从而促进各国之间的体育交流和合作。 此外,从学术研究的角度来看,奖牌榜数据可视化分析还可以为体育科学领域的研究提供新的思路和方法。通过对历年冬奥会奖牌数据的深入挖掘和分析,我们可以发现一些有趣的规律和趋势,如某些国家在某些项目上的长期优势、新兴国家的崛起以及不同项目之间的相关性等。这些发现不仅可以为未来的体育训练和比赛提供有价值的参考,还可以为体育科学的研究和发展提供新的方向。

2024-05-27

二手车价格数据分析与可视化(数据集+代码).rar

资源包括数据集和代码,代码为.ipynb格式文件,用jupyter notebook打开。 通过深入分析二手车的价格数据,并将其转化为直观的可视化图表,我们能够获取对市场趋势的深入理解,从而指导消费者、经销商和政策制定者做出更明智的决策。 首先,对于消费者而言,了解二手车价格的变化趋势和影响因素至关重要。通过数据分析和可视化,消费者可以更加清晰地看到不同车型、不同年份、不同里程数的二手车价格差异,从而帮助他们更准确地评估目标车辆的价值,避免被过高或过低的报价所误导。 其次,对于经销商而言,二手车价格数据分析与可视化同样具有重要意义。经销商可以通过分析价格数据来优化库存结构,提高资金周转率。同时,他们还可以根据市场趋势来制定更加合理的定价策略,提高市场竞争力。此外,通过对竞争对手的价格数据进行分析,经销商还可以更好地了解市场动态,制定更加有效的市场策略。 最后,从政策制定者的角度来看,二手车价格数据分析与可视化有助于他们更准确地把握市场动态,为政策制定提供有力支持。例如,政府可以根据价格数据来制定更加合理的税收政策,促进二手车市场的健康发展。

2024-05-27

欺诈性电子商务交易数据集

关于数据集 描述 这个合成数据集“欺诈性电子商务交易”旨在模拟来自电子商务平台的交易数据,重点是欺诈检测。它包含交易数据中常见的各种功能,以及专门设计用于支持欺诈检测算法的开发和测试的附加属性。 变量详情 交易ID:每笔交易的唯一标识符。 客户 ID:每个客户的唯一标识符。 交易金额:交易中交换的总金额。 交易日期:交易发生的日期和时间。 付款方式:用于完成交易的方式(例如信用卡、PayPal 等)。 产品类别:交易涉及的产品类别。 数量:交易涉及的产品数量。 客户年龄:进行交易的客户的年龄。 客户位置:客户的地理位置。 使用的设备:用于进行交易的设备类型(例如移动设备、桌面设备)。 IP 地址:用于交易的设备的 IP 地址。 送货地址:产品的发货地址。 帐单地址:与付款方式关联的地址。 Is Fraudulent:交易是否欺诈的二进制指标(1 表示欺诈,0 表示合法)。 账户期限天数:交易时客户账户的期限(以天为单位)。 交易时间:交易发生的时间。 目的 该数据集旨在用于开发和测试电子商务交易中欺诈检测的机器学习模型。它还可用于探索性数据分析、特征工程和基准欺诈检测算法。

2024-05-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除