![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析
文章平均质量分 92
艾派森
CSDN内容合伙人、新星导师、大数据分析领域优质创作者、阿里云社区专家博主,热爱python(昵称的由来),专注于数据分析、数据挖掘,持续分享学习笔记,感谢关注与支持。专栏【大数据分析案例合集】,感兴趣的小伙伴速速订阅!接Python爬虫、数据分析、数据挖掘、机器学习等相关课程设计作业/毕设,有需求请私信我!需要领取博文代码、数据集、学习资料、进粉丝交流群、的小伙伴点击了解:https://bbs.csdn.net/topics/614636587
展开
-
数据分析案例-2024 年热门动漫数据集可视化分析
本数据集来源于Kaggle,原始数据集共有1000条,22个变量。该数据集全面概述了 2024 年热门动漫,对于构建推荐系统、可视化动漫流行度和评分趋势、预测评分和流行度等非常有用。该数据集包含 22 个特征:Score:分配给每个动漫标题的评级或分数。Popularity:衡量每部动漫在观众中的受欢迎程度。Rank:数据集中每个动漫标题的排名。Members:与每部动漫相关的会员或观众数量。Description:每部动漫的情节和主题的简要概述或摘要。原创 2024-07-17 11:39:48 · 3624 阅读 · 98 评论 -
数据分析案例-2024 年全电动汽车数据集可视化分析
本数据集来源于Kaggle,原始数据集共有177866条数据,17个变量。该数据集显示了目前通过华盛顿州许可部 (DOL) 注册的电池电动汽车 (BEV) 和插电式混合动力电动汽车 (PHEV)。电池电动汽车 (BEV) 是一种全电动汽车,使用一个或多个电池来存储电能,为电机提供动力,并通过将车辆插入电源进行充电。插电式混合动力汽车 (PHEV) 是一种使用一个或多个电池为电动机提供动力的车辆;使用另一种燃料,例如汽油或柴油,为内燃机或其他推进源提供动力;并通过将车辆插入电源来充电。原创 2024-07-09 18:14:02 · 11174 阅读 · 87 评论 -
使用CiteSpace软件对知网文献进行关键词共现/聚类/突现分析
一、基本概念CiteSpace(引文空间)是一款专注于分析科学分析中蕴含的潜在知识的软件。它是在科学计量学、数据可视化背景下逐渐发展起来的引文可视化分析软件。通过可视化的手段,CiteSpace能够呈现科学知识的结构、规律和分布情况,并因此将这种分析得到的可视化图形称为“科学知识图谱”。二、主要功能和用途知识图谱构建:根据科学文献的引用关系,CiteSpace可以生成知识图谱,帮助研究人员更好地理解学术领域中不同文献之间的联系和演化过程。主题聚类分析。原创 2024-07-03 16:34:59 · 8264 阅读 · 98 评论 -
数据分析案例-在线食品订单数据可视化分析与建模分类
本实验数据集来源于Kaggle在线食品订单数据集该数据集包含一段时间内从在线订餐平台收集的信息。它包含与职业、家庭规模、反馈等相关的各种属性。Age:顾客的年龄。Gender:客户的性别。Marital Status:客户的婚姻状况。Occupation:客户的职业。Monthly Income:客户的月收入。Educational Qualifications:客户的教育资格。Family size:客户家庭中的人数。latitude:客户所在位置的纬度。原创 2024-05-31 21:08:00 · 10337 阅读 · 100 评论 -
基于Python爬虫+机器学习技术的杭州租房价格预测建模研究
本研究旨在结合Python爬虫和机器学习技术,对杭州租房价格进行预测建模与优化研究。通过抓取租房网站上的数据,提取出影响租房价格的关键因素,并利用机器学习算法构建预测模型。通过对模型的优化和验证,我们可以更加准确地预测租房价格,为租房者和房东提供有价值的参考信息,同时也为房地产市场的研究和决策提供数据支持。原创 2024-05-19 09:25:02 · 12199 阅读 · 116 评论 -
数据分析案例-印度美食数据可视化分析
印度美食由印度次大陆本土的各种地区和传统美食组成。由于土壤、气候、文化、种族和职业的多样性,这些菜肴差异很大,并使用当地可用的香料、香草、蔬菜和水果。印度食物也深受宗教(特别是印度教)、文化选择和传统的影响。本数据集来源于Kaggle,原始数据集共有255条,8个变量,各变量含义解释如下:name : 菜肴名称ingredients:主要使用成分diet:饮食类型 - 素食或非素食prep_time : 准备时间Cook_time : 烹饪时间。原创 2024-05-16 09:22:13 · 16965 阅读 · 41 评论 -
数据分析案例-全球表面温度数据可视化与统计分析
本数据集来源于Kaggle,原始数据集共有144条,19个变量。关于本数据集数据来自美国国家航空航天局GISS表面温度分析(GISTEMP v4)。这些数据集是全球和半球月平均值和区域年平均值的表。他们结合了陆地表面、空气和海洋表面的水温异常(陆地-海洋温度指数,L-OTI)。表中的数值是与相应的1951-1980年平均值的偏差。GISS地表温度分析版本4 (GISTEMP v4)是对全球地表温度变化的估计。原创 2024-04-29 22:18:24 · 12845 阅读 · 130 评论 -
数据分析案例-中国黄金股票市场的EDA与价格预测
本数据集来源于Kaggle,原始数据集为2015-2022年中国黄金股票价格,共有1945条,11个变量,各变量含义如下:ts_code- 交易市场代码trade_date- 交易日期close- 开盘价open- 收盘价high- 最高价格low- 最低价格pre_close- 最后交易日收盘价change- 变化点pct_chg- 变化的百分比vol- 交易量。原创 2024-04-20 10:20:43 · 10806 阅读 · 69 评论 -
数据分析案例-牛油果价格和销量数据可视化分析与预测
近年来,随着人们对健康饮食的关注度不断提高,牛油果作为一种营养丰富的食材逐渐受到消费者的青睐。然而,牛油果价格和销量的波动对生产者、零售商和消费者都产生了影响。为了更好地了解牛油果市场的变化趋势,本研究旨在通过可视化分析和预测牛油果价格和销量,为相关利益方提供决策支持。原创 2024-04-08 17:40:37 · 10803 阅读 · 136 评论 -
数据分析案例-国际象棋顶级棋手数据可视化分析
本数据集来源于Kaggle,原始数据集共有1071条,4个变量,各变量含义解释如下:GM:玩家的官方头衔Player:玩家姓名Rating | Ranking:国际棋联评级 |世界排名Federation:国际象棋棋手联合会关于此数据集利用此数据集探索国际象棋世界,该数据集包含顶级棋手、他们当前的评级、全球排名以及各自的联合会。深入了解国际象棋的竞争格局,深入了解各国顶尖棋手。原创 2024-03-23 09:14:45 · 10808 阅读 · 145 评论 -
数据分析案例- Netflix 电影和电视节目数据集可视化分析
本数据集来源于Kaggle,是 Netflix 电影和电视节目数据集,原始数据集共有8790条,10个变量,各变量含义如下:show_id:展出IDtype:内容(电视节目或电影)title:标题director:节目或电影的导演country:节目或电影的国家/地区date_added:添加到 Netflix 的日期release_year:内容发布年份rating:评级或限制duration:内容持续时间listed_in:内容类型。原创 2024-03-13 15:05:20 · 12137 阅读 · 170 评论 -
数据分析案例-二手车用户数据可视化分析
数据集来源于Kaggle,原始数据集为美国二手车市场用户数据,共有7906条,18个变量,各变量含义如下:Sales_ID(销售ID)name(二手车名称)year(购车年份)selling_price(二手车当前销售价格)km_driven(总行驶公里数)Region(使用地区)State or Province(使用的州或省)City(使用城市)fuel(燃料类型)seller_type(谁在出售汽车)transmission(汽车的变速器类型)owner(业主类型)原创 2024-03-06 10:38:58 · 12993 阅读 · 135 评论 -
数据分析案例-社交媒体情绪数据集可视化分析
本数据集来源于Kaggle,社交媒体情绪分析数据集捕捉了各种社交媒体平台上充满活力的情绪、趋势和互动。每个条目都揭示了世界各地的人们分享的独特故事——惊喜、兴奋、钦佩、兴奋、满足等等的时刻。原始数据集共732条,13个变量,各变量含义如下:Text:用户生成的内容展示情感Sentiment:情绪分类Timestamp:日期和时间信息User:贡献用户的唯一标识符Platform:内容起源的社交媒体平台Hashtags:识别热门话题和主题Retweets:量化用户参与度(喜欢)原创 2024-02-28 09:38:00 · 15567 阅读 · 142 评论 -
数据分析案例-2023年TOP100国外电影数据可视化
随着全球化的深入发展,电影作为一种文化表达和艺术形式,逐渐超越了国界,成为世界各地观众共同欣赏的对象。2023年TOP100国外电影榜单的发布,正是这一发展趋势的体现。为了更好地理解这一现象,我们决定对这100部电影进行数据可视化分析,以期揭示其背后的文化、市场和艺术特征。原创 2024-02-20 17:41:21 · 14406 阅读 · 145 评论 -
数据分析案例-基于亚马逊智能产品评论的探索性数据分析
数据成为新时代企业不可或缺的资产,不同行业、不同领域的公司都越来越注重数据在公司运营中发挥的作用,从谷歌、亚马逊到阿里、百度、腾讯,都因其拥有大量的用户注册和运营信息,成为天然的大数据公司。显然亚马逊早已开始尝试从数据中发掘价值,长期以来通过大数据分析,尝试定位客户并获取客户反馈,其不仅从每个用户的购买行为中获得信息,还将每个用户在网站上的所有行为都记录下来,充分体现了亚马逊对数据价值的高度敏感和重视及其强大的挖掘能力。原创 2024-02-15 15:03:01 · 18201 阅读 · 116 评论 -
数据分析案例-图书书籍数据可视化分析
数据集来源于Kaggle,这个数据集包含了从wonderbk.com(一个受欢迎的在线书店)抓取的信息。该数据集包含103,063本书的详细信息,其中包含标题、作者、描述、类别、出版商、起始价格和出版日期等关键属性。Title:书的标题。Authors:本书的作者。Description :对本书的简要描述。Category:书籍所属的类别或流派。Publisher:负责本书的出版社。Price:书籍的初始价格。Publish Date:出版年份。原创 2024-01-19 09:56:40 · 16698 阅读 · 124 评论 -
数据分析案例-外国电影票房数据可视化分析
该数据集来源于kaggle,该数据集包含1995年至2018年上映的电影类型统计数据,原始数据集共有300条,9个变量,各变量含义解释如下:Genre:电影的类别或类型。(分类)Year:电影发行的年份。(数字)Movies Released :特定类型和年份发行的电影数量。(数字)Gross:该类型和年份的电影产生的总收入。(数字)Tickets Sold:该类型和年份的电影售出门票总数。(数字)原创 2024-01-03 18:05:23 · 19889 阅读 · 144 评论 -
基于机器学习算法的数据分析师薪资预测模型优化研究
目前大陆地区对数据分析师的需求主要集中在北京、上海、深圳地区;相应提供的薪资水平也是这三个地区居于前面,证实了经济较好的地区对该岗位的需求更好、待遇更好;因而,对于互联网等相关企业,北上广深依旧是广大求职者的目标地区;从数据统计情况来看,针对数据分析师在学历方面的要求,目前是学历越高,薪资待遇越好;但相反的是,学历越高,岗位需求并非越大;而针对数据分析师在经验上的要求,目前是经验在3年及以上的岗位缺口更大;原创 2023-12-26 10:44:51 · 14686 阅读 · 105 评论 -
基于记忆与模型协同过滤的电影推荐系统研究与实践
随着信息技术的不断发展,人们在日常生活中面临着越来越多的选择,例如在电影、音乐、图书等娱乐领域。为了帮助用户更好地发现符合其兴趣和偏好的内容,推荐系统应运而生。推荐系统通过分析用户的历史行为、兴趣和偏好,向用户提供个性化的推荐内容,从而提升用户体验和平台的粘性。原创 2023-11-16 18:31:25 · 15802 阅读 · 167 评论 -
基于LDA主题分析的《老友记》情景喜剧数据集的建模分析
本数据集来源于kaggle,《老友记》是一部美国情景喜剧,由大卫·克兰和玛尔塔·考夫曼创作,于1994年9月22日至2004年5月6日在美国全国广播公司播出,共十季。这部剧由詹妮弗·安妮斯顿、柯特妮·考克斯、丽莎·库卓、马特·勒布朗、马修·佩里和大卫·修默主演,围绕着六个住在纽约曼哈顿的二三十岁的朋友展开。该系列由Bright/Kauffman/Crane Productions与华纳兄弟电视公司联合制作。最初的执行制片人是凯文·s·布莱特、考夫曼和克兰。原创 2023-11-12 12:11:57 · 13330 阅读 · 199 评论 -
基于情感分析+聚类分析+LDA主题分析对服装产品类的消费者评论分析
本研究旨在通过对服装产品类的消费者评论进行综合分析,为企业提供更全面、更深入的市场洞察和决策支持。同时,本研究的方法和结果也可以为其他领域的消费者评论分析提供借鉴和参考。原创 2023-11-09 14:09:42 · 21390 阅读 · 177 评论 -
数据分析案例-基于服饰行业中消费者行为和购物习惯的可视化分析
本实验旨在借助可视化分析工具,深入探讨服饰行业中的消费者行为和购物习惯,以便制定更精准的市场策略和决策。原创 2023-11-06 16:33:55 · 14682 阅读 · 209 评论 -
数据挖掘实战-基于word2vec的短文本情感分析
Word2vec 是 Word Embedding 的方法之一。他是 2013 年由谷歌的 Mikolov 提出的一套新的词嵌入方法,是一种神经网络概率语言模型,可以用于计算单词的词向量。与传统的高维词向量 one-hot representation 相比,Word2vec 词向量的维度通常在 100~300 维之间,减少了计算的复杂度,也不会造成向量维数灾难。除此之外,Word2vec词向量是根据词汇所在上下文计算出的,充分捕获了上下文的语义信息,很容易通过它计算两个词汇的相似程度。原创 2023-11-30 17:09:39 · 22057 阅读 · 164 评论 -
数据分析案例-某公司员工数据信息可视化
本次实验旨在通过可视化工具和技术,分析和呈现公司员工数据信息。这种数据可视化对于公司管理和决策制定非常重要,可以帮助领导层更好地了解员工情况,优化流程,提高效率,和制定人力资源策略。原创 2023-10-26 11:22:53 · 15045 阅读 · 160 评论 -
数据分析案例-顾客购物数据可视化分析
本项目旨在通过数据可视化技术,对顾客购物数据进行深入挖掘和分析,为商家提供全面的市场分析和商业洞察。通过使用先进的数据可视化工具和技术,我们将从大量的顾客购物数据中提取有价值的信息,并通过直观的图形展示出来,帮助商家更好地理解市场和消费者行为,优化商业决策。原创 2023-10-22 08:53:32 · 16347 阅读 · 261 评论 -
数据分析案例-基于snownlp模型的MatePad11产品用户评论情感分析
在本次实验中,我们采用了先进的文本挖掘和数据分析技术,对京东平台上MatePad11的用户评论进行了全面深入的分析。通过使用Python编程语言,我们首先实现了自动化爬取用户评论的关键信息,并将这些数据进行了预处理。预处理阶段,我们采用了自然语言处理技术,对文本进行了清洗、分词、词性标注等操作,为后续的数据分析奠定了基础。此外,我们还运用了情感分析算法,对用户评论的情感倾向进行了自动分类,以便更好地把握用户对该产品的态度和感受。在进行数据预处理之后,我们进一步对用户评论数据进行了可视化分析。原创 2023-10-16 16:51:29 · 15206 阅读 · 259 评论 -
用Python分析文本数据的词频并词云图可视化
上次批量提取了上市公司主要业务信息,要分析这些文本数据,就需要做文本词频分析。由于中文不同于英文,词是由一个一个汉字组成的,而英文的词与词之间本身就有空格,所以中文的分词需要单独的库才能够实现,常用的是`jieba`。原创 2023-09-20 09:48:06 · 19015 阅读 · 171 评论 -
基于Python爬虫+词云图+情感分析对某东上完美日记的用户评论分析
随着互联网和社交媒体的发展,用户评论成为了消费者表达自己意见和情感的主要途径之一。对于企业来说,深入了解用户对其产品或服务的看法可以帮助他们更好地了解市场需求、产品改进的方向,以及消费者的情感倾向。因此,对用户评论进行分析已经成为了市场研究和商业决策的重要手段之一。原创 2023-08-10 22:10:23 · 15128 阅读 · 119 评论 -
数据分析案例-汽车客户信息数据可视化分析
本数据集来源于kaggle,原始数据集共有8068条,11个特征变量,各变量含义解释如下:ID:客户IDGender:客户性别Ever_Married:客户婚姻状况Age:客户年龄Graduated:客户是毕业生吗?Profession:客户的职业Work_Experience:多年工作经验Spending_Score:客户的消费评分Family_Size:客户家庭成员人数(含客户)Var_1:客户的匿名类别Segmentation:(目标)客户的客户群。原创 2023-08-25 18:47:30 · 15210 阅读 · 212 评论 -
数据挖掘实战:基于KMeans算法对超市客户进行聚类分群
本实验基于KMeans算法对超市客户进行了聚类分群。通过对客户购物数据进行聚类,我们成功将客户分为不同的群体。每个群体代表了具有相似购物行为和偏好的客户群体。通过实验结果,我们发现了客户群体之间的明显差异和共性。不同群体的客户在购买频率、购物金额和购买种类等方面有所区别。这为超市提供了重要的市场细分信息,帮助超市经营者更好地了解不同客户群体的需求和喜好,制定有针对性的营销策略和商品推荐,提高客户满意度和忠诚度。此外,实验还揭示了超市客户的购物行为规律,为超市优化商品陈列和促销策略提供了指导。原创 2023-08-01 18:26:05 · 20698 阅读 · 140 评论 -
【腾讯云 Cloud Studio 实战训练营】GPT+Cloud Studio快速完成Excel工资自动核算
随着业务规模的不断扩大,工资核算变得更加复杂而重要。然而,仍有许多组织依赖传统的Excel方法进行工资核算,这可能导致效率低下、风险增加以及员工薪资的准确性受到影响。在这个数字化时代,我们面临一个关键问题:如何在面对庞大的数据量和高要求的准确性时,找到一种更智能、更高效的工资核算解决方案?这正是GPT技术和云集成开发环境(IDE)的结合所带来的创新。将人工智能引入工资核算领域,意味着我们可以让计算机自动处理和分析数据,从而减少人为错误的风险。原创 2023-07-29 17:03:38 · 21677 阅读 · 106 评论 -
数据分析方法-对比分析和用户画像
本文主要介绍数据分析方法中的对比分析和用户画像。这是一本从功能模块、技术实现、平台构建、业务应用4个层次由浅入深地讲解用户画像的著作。作者在某头部互联网公司经历了其用户画像平台从0到1并发展为画像中台的全过程,打下了扎实的技术功底,积累了丰富的业务经验,本书从技术和业务双重维度对整个过程进行了复盘。具体来讲,本书主要包含如下内容:(1)画像的作用、业界主流的4种商用画像平台的核心功能和实现逻辑;(2)画像平台的主要功能、画像平台的技术架构与技术选型、画像平台的数据模型;原创 2023-09-21 12:21:29 · 10848 阅读 · 83 评论 -
数据分析案例-数据分析师岗位招聘信息可视化
本次实验数据集来源于xx招聘网中关于数据分析师相关岗位的招聘信息,共计1600条数据,每条招聘信息包括岗位名称、公司、薪资、城市、工作类型、学历要求、工作经验要求等共51个字段。本次通过对数据分析师相关岗位的分析,我们发现数据分析相关岗位主要集中在北上广深等城市,以中大厂为主,经验要求以1-5年为主,学历以本科以上为主,平均薪资在15k左右,技能方面以SQL、可视化、BI、Python、Hadoop、Hive为主。原创 2023-07-18 08:55:38 · 11400 阅读 · 71 评论 -
数据分析案例-顾客购物数据可视化分析
本数据集来源于kaggle,原始数据集共有99457条,10个特征变量,各变量含义解释如下:Invoice_no:发票编号。标称。字母“I”和唯一分配给每个操作的 6 位整数的组合。customer_id:客户编号。标称。字母“C”和唯一分配给每个操作的 6 位整数的组合。gender:客户性别的字符串变量。age:顾客年龄的正整数变量。category:所购买产品的类别的字符串变量。quantity:每笔交易的每种产品(商品)的数量。数字。price:单价。数字。原创 2023-07-25 17:58:43 · 15259 阅读 · 143 评论 -
基于爬虫+词云图+Kmeans聚类+LDA主题分析+社会网络语义分析对大唐不夜城用户评论进行分析
本项目是基于携程网中关于大唐不夜城评论的文本分析,项目中用到了Python爬虫、词频分析、词云图分析、kmeans聚类、LDA主题分析、情感分析、社会网络语义分析等。本次实验我们使用了爬虫、词云图、情感分析、LDA主题分析、TF-IDF+Kmeans、社会网络语义分析等对大唐不夜城的评论进行了分析。关于博文中的源码大家可以关注派森小木屋公众号进入粉丝群领取,如对文章有疑惑,请评论区留言。原创 2023-06-09 08:00:00 · 15770 阅读 · 54 评论 -
数据分析案例-航空公司满意度数据可视化
本数据来源于Kaggle,原始数据共有103904条,共23个特征,具体各变量含义如下:Gender:乘客性别(女、男)Customer Type:客户类型(Loyal customer, disloyal customer)Age:乘客的实际年龄Type of Travel:乘客的飞行目的(个人旅行、商务旅行)Class:乘客飞机的旅行等级(商务舱、经济舱、经济舱)Flight Distance:本次行程的飞行距离。原创 2023-06-13 18:00:00 · 13213 阅读 · 81 评论 -
文本分析-使用jieba库进行中文分词和去除停用词(附案例实战)
本文将手把手教会你使用jieba库进行中文分词和去除停用词,这是学会文本分析的必经之路!原创 2023-06-05 08:00:00 · 34161 阅读 · 163 评论 -
Python3实现基于ARIMA模型来预测茅台股票价格趋势
ARIMA(Autoregressive Integrated Moving Average)模型是一种广泛使用的时间序列分析方法,它可以用于对未来的数据进行预测。ARIMA模型由自回归模型(AR模型)、差分整合模型(I模型)和移动平均模型(MA模型)组成,因此也被称为ARIMA(p,d,q)模型。其中,p表示自回归阶数,d表示差分阶数,q表示移动平均阶数。具体来说,ARIMA模型可以通过以下步骤进行建模:数据预处理:对时间序列进行平稳性检验,如果不满足平稳性,则进行差分操作。原创 2023-06-01 08:00:00 · 18784 阅读 · 127 评论 -
基于Tomotopy构建LDA主题模型(附案例实战)
tomotopy 是 tomoto(主题建模工具)的 Python 扩展,它是用 C++ 编写的基于 Gibbs 采样的主题模型库。支持的主题模型包括 LDA、DMR、HDP、MG-LDA、PA 和 HPA, 利用现代 CPU 的矢量化来最大化速度。当前版本的 tomotopy 支持的主题模型包括:潜在狄利克雷分配(LDAModel)标记的 LDA(LLDA 模型)部分标记的 LDA(PLDA 模型)监督LDA(SLDA模型)Dirichlet 多项回归 (DMRModel)原创 2023-05-30 12:56:14 · 13622 阅读 · 161 评论 -
数据分析案例-数据科学相关岗位薪资可视化分析
本数据集来源于kaggle,原始数据集共有3755条, 11列特征,各特征具体含义如下:work_year:发工资的年份。experience_level:该职位在一年内的经验水平employment_type:角色的雇佣类型job_title:这一年中工作的角色工资:支付的工资总额salary_currency:作为ISO 4217货币代码支付的工资的货币salaryinusd:以美元计算的工资。原创 2023-05-24 08:00:00 · 12652 阅读 · 148 评论