![](https://img-blog.csdnimg.cn/67a6c5e3a1394bccb1e924c8d6e238ea.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
数据解析之旅:发现信息的奥秘
文章平均质量分 94
专栏将深度探索数据分析的技术性与价值。通过系统性的学习,我们将掌握数据收集、清洗和处理的技巧,了解统计学和机器学习算法的运用,以及高级数据分析方法。专栏将强调实际案例,帮助理解数据分析在现实问题中的价值。掌握数据分析将使读者在决策中更具说服力,提高业务运营效率,优化产品和服务。
老虎也淘气
大家好!我是一名热爱数据分析的学习者,同时也是阿里云专家博主,Python数据分析优质创作者。在这个充满机遇和挑战的时代,我专注于数据分析领域的探索与学习。通过掌握Python编程和MySQL数据库,我能够从海量数据中发现有价值的信息,进行数据挖掘与可视化分析。同时,机器学习技术也是我研究的重点,帮助我构建智能模型解决实际问题。在我的博客中,我将分享数据分析的心得与经验,期待与大家一同成长,共同追求数据分析世界的精彩!
展开
-
京东手机评论分析
本文使用jieba,snownlp,wordcloud,matplotlib等模块对文本数据进行了简要的情感分析及可视化,旨在了解用户使用体验,以此对平台运营提出优化建议。消极评论关键词显示,“屏幕”“快递”“充电”是造成用户体验不佳的几个重要因素;emotion平均值为0.74,中位数为0.96,25%分位数为0.56,可见不到25%的数据造成了整体均值的较大下移。以上关键词显示,消费者比较在意手机的“屏幕”“拍照”“手感”等特性,“华为”“小米”是出现频次最高的两个手机品牌。原创 2024-02-01 14:12:05 · 794 阅读 · 1 评论 -
游戏APP用户行为统计分析
有4655人选择在当天激活,占安装人数中的63.9%,占整体注册人数中的94.6%,有32.5%的用户没有在7天内激活注册。安装信息表的安装时间范围: 2020-04-20 00:02:15 2020-04-26 15:59:27。注册信息表的安装时间范围: 2020-04-20 00:04:51 2020-04-26 23:44:39。可见系统大部分人并没有更新最新系统,只有869人更新系统并下载游戏。结果可以得出2020-04-25安装用户量最多。2020-04-26注册人数最多。原创 2024-02-01 09:58:51 · 1151 阅读 · 0 评论 -
乳腺癌预测_EDA_Models
在医学领域的不断创新中,技术的进步为疾病的早期预测和诊断提供了全新的可能性。乳腺癌作为女性最常见的癌症之一,对于其早期预测变得尤为关键。本文将引领您探索乳腺癌预测中的数据探索分析(Exploratory Data Analysis,简称EDA)以及相关的模型应用。通过深入挖掘乳腺癌数据集,我们将揭示隐藏在背后的模式和趋势,为医学领域的科学家、数据科学家和临床医生提供更有力的工具,以更准确地预测乳腺癌的风险。原创 2024-01-17 14:55:31 · 1113 阅读 · 1 评论 -
世界人口数据分析与探索
探索全面的数据集,提供对全球人口统计和特定国家特征的深刻见解。这些数据集来源于worldometers.info和维基百科等知名平台,涵盖了广泛的关键指标,为深入分析和探索提供了丰富的资源。原创 2024-01-13 13:03:19 · 1463 阅读 · 1 评论 -
足球- EDA的历史数据分析并可视化
date - 比赛日期home_team - 主队的名字away_team - 客场球队的名称home_score - 全职主队得分,包括加时赛,不包括点球大战away_score - 全职客队得分,包括加时赛,不包括点球大战tournament - 锦标赛的名称city - 比赛所在城市/城镇/行政单位的名称country -比赛所在国家的名称neutral - 真/假栏,表示比赛是否在中立场地进行。原创 2023-08-25 10:47:33 · 1291 阅读 · 0 评论 -
Matplotlib引领数据图表绘制
在数据科学领域,数据可视化是一种强大的工具,能够将复杂的数据转化为易于理解和分析的图形。Matplotlib作为Python中最流行的数据可视化库,为我们提供了丰富的绘图功能和灵活的绘图选项。本文将深入探索Matplotlib。Matplotlib是数据科学中不可或缺的工具,它为我们提供了丰富的绘图功能和定制选项,使得数据的可视化变得轻松而有趣。通过学习和应用Matplotlib,我们能够将复杂的数据转化为直观的图表,更好地理解数据,支持决策和分析。原创 2023-08-08 16:27:22 · 558 阅读 · 0 评论 -
IBM HR Analytics 员工流失 EDA 和可视化绩效分析
揭示导致员工流失的因素,并探讨重要问题,例如“按工作角色和流失情况显示离家距离的详细信息”或“按教育程度和流失情况比较平均月收入”。从这个箱线图中,我们可以看到,员工平均要走7公里才能到达办公室,其中75%的员工要走1到14公里才能到达办公室。从散点图中,我们可以看到,随着人们年龄的增长,高薪的机会越来越多,年长的雇员往往挣得更多,然而,工资差距也在扩大。我们可以看到,平均而言,上过高中的人换工作的频率较低。我们可以看到,与住在附近或合理距离的人相比,住得远的人戒烟的概率更高。2.计算每组的退出概率。原创 2023-08-07 21:44:35 · 633 阅读 · 0 评论 -
汽车分析,随时间变化的燃油效率
数据集由以下列组成:这个项目的主要目标是了解汽车的不同特性之间的关系,以及它们如何影响燃油效率(MPG -每加仑英里数)。该项目还旨在发现数据中任何有趣的趋势或模式,从而为汽车行业提供见解。定义异常值的上限和下限。将异常值限制在一定范围内。重复这个过程,针对“重量”特征工程创建一个新的特征’hp_to_weight’,它是马力与重量的比率。检查前几行 DataFrame 以确认更改。随着时间的推移,燃油效率:平均每加仑英里数(mpg)似原创 2023-07-27 11:20:34 · 1096 阅读 · 1 评论 -
睡眠健康数据分析
本数据集涵盖了与睡眠和日常习惯有关的诸多变量。如性别、年龄、职业、睡眠时间、睡眠质量、身体活动水平、压力水平、BMI类别、血压、心率、每日步数、以及是否有睡眠障碍等细节。数据集的主要特征: 综合睡眠指标:探索睡眠持续时间、质量和影响睡眠模式的因素。生活方式因素:分析身体活动水平、压力水平和 BMI 类别。心血管健康:检查血压和心率测量值。睡眠障碍分析:确定失眠和睡眠呼吸暂停等睡眠障碍的发生。数据集列:人员 ID:每个人的标识符。性别:人员的性别(男性/女性)。原创 2023-07-26 21:46:53 · 3796 阅读 · 2 评论 -
爬取微博热搜榜并进行数据分析
用requests库访问页面用get方法获取页面资源,登录页面对页面HTML进行分析,用beautifulsoup库获取并提取自己所需要的信息。再讲数据保存到CSV文件中,进行数据清洗,数据可视化分析,绘制数据图表,并用最小二乘法进行拟合分析。原创 2023-07-26 10:34:10 · 6005 阅读 · 5 评论 -
Python实战项目——O2O_优惠券使用情况分析(五)
随着移动设备的完善和普及,移动互联网+各行各业进入了高速发展阶段,这其中以O2O(Online to Offline)消费最为吸引眼球。据不完全统计,O2O行业估值上亿的创业公司至少有10家,也不乏百亿巨头的身影。O2O行业关联数亿消费者,各类APP每天记录了超过百亿条用户行为和位置记录,因而成为大数据科研和商业化运营的最佳结合点之一。以优惠券盘活老用户或吸引新客户进店消费是O2O的一种重要营销方式。然而随机投放的优惠券对多数用户造成无意义的干扰。原创 2023-07-21 11:45:30 · 822 阅读 · 1 评论 -
Python实战项目——旅游数据分析(四)
由于有之前的项目,所以今天我们直接开始,不做需求分析,还不会需求分析的可以看我之前的文章。原创 2023-07-21 11:21:13 · 2723 阅读 · 1 评论 -
Python实战项目——用户消费行为数据分析(三)
大多数用户最后一次购买时间集中在前3个月,说明缺少忠诚用户。随着时间的推移,最后一次购买商品的用户量呈现上升趋势,猜测:这份数据选择是的前三个月消费的用户在后面18个月的跟踪记录1.针对用户进行按照月份做整体和个体分析,主要分析维度是人数,消费金额,购买量2.消费分析:首购时间,最后一次购买时间,相邻两个购物时间的间隔,用户分层( RFM 模型+数据透视表),分析维度主要是新用户,活跃用户,不活跃用户流失分析,回流用户占比3.复购率和回购率进行分析。原创 2023-07-20 17:46:14 · 3427 阅读 · 11 评论 -
Python实战项目——物流行业数据分析(二)
从销售区域看,每种货品销售区域为1~3个,货品1有三个销售区域,货品2有两个销售区域,其余货品均有1个销售区域。货品2在10月和12月份,销量猛增,原因猜测有二:1.公司加大营销力度 2.开发了新的市场(后续有结论)② 异常值处理(比如:销售金额存在等于0的,数量和销售金额的标准差都在均值的8倍以上等)编写自定义过滤函数:删除逗号,转成float,如果是万元则*10000,否则,删除元。我们分别从月份维度,销售区域维度,货品维度,货品和销售区域结合四个角度来开始探讨。我们回到一开始的问题,现在开始解决。原创 2023-07-19 11:34:33 · 1093 阅读 · 5 评论 -
Python实战项目——餐厅订单数据分析(一)
我们的数据是一个餐厅订单,其中包括detail_id,order_id,dishes_id等一系列餐厅数据。拥有3个sheet,数据项大约1w左右。还有各种各样的美食和酒水,看的我流口水(蒜蓉生蚝,蒙古烤羊腿,桂圆枸杞鸽子汤,38度剑南春 ,美妙绝伦之白莲花,姜葱炒花蟹)以上就是对数据的简单认识和处理,通过作图让我们能够更加清晰的认识数据,加深了解数据之间的联系和区别。原创 2023-07-19 09:32:33 · 2587 阅读 · 3 评论