- 博客(143)
- 收藏
- 关注
原创 EDA 2023 年世界国家suicide rate排名
随着社会的不断发展和变迁,人们对于各种社会问题的关注也在不断扩大。在这个信息爆炸的时代,数据分析成为了深入理解和解决社会问题的有力工具之一。在这篇博客中,我们将聚焦于一个备受关注的话题——自杀率,并通过对 2023 年全球各国的自杀率进行探索性数据分析(Exploratory Data Analysis, EDA),来了解这一问题在不同国家的表现。自杀率不仅是一个深刻的社会问题,也反映了一个国家在心理健康、社会福祉等方面的表现。
2024-07-06 13:51:34 1283
原创 京东手机评论分析
本文使用jieba,snownlp,wordcloud,matplotlib等模块对文本数据进行了简要的情感分析及可视化,旨在了解用户使用体验,以此对平台运营提出优化建议。消极评论关键词显示,“屏幕”“快递”“充电”是造成用户体验不佳的几个重要因素;emotion平均值为0.74,中位数为0.96,25%分位数为0.56,可见不到25%的数据造成了整体均值的较大下移。以上关键词显示,消费者比较在意手机的“屏幕”“拍照”“手感”等特性,“华为”“小米”是出现频次最高的两个手机品牌。
2024-02-01 14:12:05 874 1
原创 游戏APP用户行为统计分析
有4655人选择在当天激活,占安装人数中的63.9%,占整体注册人数中的94.6%,有32.5%的用户没有在7天内激活注册。安装信息表的安装时间范围: 2020-04-20 00:02:15 2020-04-26 15:59:27。注册信息表的安装时间范围: 2020-04-20 00:04:51 2020-04-26 23:44:39。可见系统大部分人并没有更新最新系统,只有869人更新系统并下载游戏。结果可以得出2020-04-25安装用户量最多。2020-04-26注册人数最多。
2024-02-01 09:58:51 1198
原创 Stata17安装教程
欢迎阅读本篇技术博客,今天我们将深入探讨如何安装最新版本的 Stata17。作为一款功能强大的统计分析软件,Stata一直以其灵活性、易用性和广泛的应用领域而闻名。无论您是研究生、学术界专业人士、统计分析师,还是企业决策者,掌握Stata都将是一个强大的工具,有助于您进行数据分析、制作报告以及做出更明智的决策。本文将详细介绍如何在不同操作系统上安装Stata17,并提供一系列步骤和注意事项,让您能够顺利完成安装并开始使用这一令人兴奋的版本。
2024-01-25 15:21:29 3163
原创 必练的100道C语言程序设计练习题(下)
在计算机编程的世界中,C语言一直是一门备受推崇的语言。它的简洁性、高效性以及广泛应用使得学习C语言成为每一位程序员的必由之路。然而,掌握这门语言并不是一蹴而就的事情,它需要不断的练习和实践。为了帮助各位编程爱好者更好地理解和掌握C语言的精髓,我整理了一份“必练的100道C语言程序设计练习题(上)”。这不仅是一次对基础知识的回顾,更是一个深入学习的契机。通过挑战这些题目,你将更好地锻炼编程思维,提高问题解决能力,为未来的编程之旅打下坚实的基础。
2024-01-23 09:39:33 1190
原创 Xftp连接不上Linux虚拟机的原因解决方法
在当今数字化时代,远程连接到Linux虚拟机是许多开发者和系统管理员日常工作的一部分。然而,有时候,面对Xftp连接不上Linux虚拟机的问题,我们可能感到困惑和无措。这个看似小问题可能导致工作中断,因此解决它成为技术人员不可或缺的技能之一。本文将探讨Xftp连接问题的根本原因,并提供一系列实用的解决方法,帮助你快速恢复连接并继续高效工作。
2024-01-23 09:30:33 5520 1
原创 乳腺癌预测_EDA_Models
在医学领域的不断创新中,技术的进步为疾病的早期预测和诊断提供了全新的可能性。乳腺癌作为女性最常见的癌症之一,对于其早期预测变得尤为关键。本文将引领您探索乳腺癌预测中的数据探索分析(Exploratory Data Analysis,简称EDA)以及相关的模型应用。通过深入挖掘乳腺癌数据集,我们将揭示隐藏在背后的模式和趋势,为医学领域的科学家、数据科学家和临床医生提供更有力的工具,以更准确地预测乳腺癌的风险。
2024-01-17 14:55:31 1140 1
原创 利用PicGo和SM.MS图床工具实现Markdown(Typora)图片脱离本地路径
在现代的技术写作中,图像在传达信息和概念方面扮演着不可或缺的角色。然而,随着Markdown和Typora等工具的广泛使用,我们经常发现在文章中嵌入的图片,受限于本地路径,给分享、迁移和版本管理带来了一些不便。利用Typora工具作为markdown编辑工具,但是当你在写一篇文章并且需要放图片或者截图时会发现,自己在放图片的时候还好好的,本地文件打开之后图片什么的都还有,但是怎么将内容上传到博客等网站上图片就消失不见呢?
2024-01-14 09:42:07 1352
原创 必练的100道C语言程序设计练习题(上)
在计算机编程的世界中,C语言一直是一门备受推崇的语言。它的简洁性、高效性以及广泛应用使得学习C语言成为每一位程序员的必由之路。然而,掌握这门语言并不是一蹴而就的事情,它需要不断的练习和实践。为了帮助各位编程爱好者更好地理解和掌握C语言的精髓,我整理了一份“必练的100道C语言程序设计练习题(上)”。这不仅是一次对基础知识的回顾,更是一个深入学习的契机。通过挑战这些题目,你将更好地锻炼编程思维,提高问题解决能力,为未来的编程之旅打下坚实的基础。
2024-01-13 20:24:41 2398
原创 世界人口数据分析与探索
探索全面的数据集,提供对全球人口统计和特定国家特征的深刻见解。这些数据集来源于worldometers.info和维基百科等知名平台,涵盖了广泛的关键指标,为深入分析和探索提供了丰富的资源。
2024-01-13 13:03:19 1554 1
原创 计算机系统(软考版)----计算机系统基础知识、基本单位与进制(1)
简单计算机系统基础知识、基本单位与进制,提供一些基本概念和习题。目的是为了帮助大家通过考试。
2024-01-12 20:49:37 995
原创 安装Linux虚拟机——以ubuntukylin-16.04.7-desktop-amd64.iso为例
安装Linux虚拟机——以ubuntukylin-16.04.7-desktop-amd64.iso为例
2023-09-22 19:10:53 1909
原创 Linux 忘记密码解决方法
很多朋友经常会忘记Linux系统的root密码,linux系统忘记root密码的情况该怎么办呢?重新安装系统吗?答案是不需要进入单用户模式更改一下root密码即可。
2023-08-31 07:44:44 621
原创 足球- EDA的历史数据分析并可视化
date - 比赛日期home_team - 主队的名字away_team - 客场球队的名称home_score - 全职主队得分,包括加时赛,不包括点球大战away_score - 全职客队得分,包括加时赛,不包括点球大战tournament - 锦标赛的名称city - 比赛所在城市/城镇/行政单位的名称country -比赛所在国家的名称neutral - 真/假栏,表示比赛是否在中立场地进行。
2023-08-25 10:47:33 1323
原创 Hadoop学习:深入解析MapReduce的大数据魔力之数据压缩(四)
压缩的优点:以减少磁盘IO、减少磁盘存储空间。压缩的缺点:增加CPU开销。
2023-08-18 16:51:40 1545
原创 Hadoop学习:深入解析MapReduce的大数据魔力(三)
(1)默认使用的实现类是:TextInputFormat(2)TextInputFormat 的功能逻辑是:一次读一行文本,然后将该行的起始偏移量作为key,行内容作为value返回。(3)CombineTextInputFormat 可以把多个小文件合并成一个切片处理,提高处理效率。
2023-08-18 16:40:50 668
原创 Linux面试专题
Linux 使用一个设备编号来唯一的标示一个设备,设备编号分为:主设备号和次设备号,一般主设备号标示设备对应的驱动程序,次设备号对应设备文件指向的设备,在内核中使用dev_t来表示设备编号,一般它是32位长度,其中12位用于表示主设备号,20位用于表示次设备号,利用MKDEV(int major,int minor);1.软中断一般是“可延迟函数”的总称,它不能睡眠,不能阻塞,它处于中断上下文,不能进城切换,软中断不能被自己打断,只能被硬件中断打断(上半部),可以并发的运行在多个CPU上。
2023-08-08 16:53:34 647
原创 Matplotlib引领数据图表绘制
在数据科学领域,数据可视化是一种强大的工具,能够将复杂的数据转化为易于理解和分析的图形。Matplotlib作为Python中最流行的数据可视化库,为我们提供了丰富的绘图功能和灵活的绘图选项。本文将深入探索Matplotlib。Matplotlib是数据科学中不可或缺的工具,它为我们提供了丰富的绘图功能和定制选项,使得数据的可视化变得轻松而有趣。通过学习和应用Matplotlib,我们能够将复杂的数据转化为直观的图表,更好地理解数据,支持决策和分析。
2023-08-08 16:27:22 667
原创 IBM HR Analytics 员工流失 EDA 和可视化绩效分析
揭示导致员工流失的因素,并探讨重要问题,例如“按工作角色和流失情况显示离家距离的详细信息”或“按教育程度和流失情况比较平均月收入”。从这个箱线图中,我们可以看到,员工平均要走7公里才能到达办公室,其中75%的员工要走1到14公里才能到达办公室。从散点图中,我们可以看到,随着人们年龄的增长,高薪的机会越来越多,年长的雇员往往挣得更多,然而,工资差距也在扩大。我们可以看到,平均而言,上过高中的人换工作的频率较低。我们可以看到,与住在附近或合理距离的人相比,住得远的人戒烟的概率更高。2.计算每组的退出概率。
2023-08-07 21:44:35 724
原创 Linux ——实操篇
Linux 系统会内置 vi 文本编辑器Vim 具有程序编辑的能力,可以看做是 Vi 的增强版本,可以主动的以字体颜色辨别语法的正确性,方便程序设计。代码补完、编译及错误跳转等方便编程的功能特别丰富,在程序员中被广泛使用。shutdown–hnow立该进行关机shudown-h1“hello, 1 分钟后会关机了”shutdown–rnow现在重新启动计算机haltNULLNULL关机,作用和上面一样rebootNULLNULL现在重新启动计算机syncNULL。
2023-08-07 10:08:05 451
原创 Hadoop学习:深入解析MapReduce的大数据魔力(二)
1)需求过滤输入的log日志,包含atguigu的网站输出到e:/atguigu.log,不包含atguigu的网站输出到e:/other.log。(1)输入数据(2)期望输出数据2)需求分析3)案例实操(1)编写LogMapper类// 不做任何处理 , 直接写出一行log数据} }(2)编写LogReducer类// 防止有相同的数据 , 迭代写出 for(NullWritable value : values) {} } }
2023-08-06 09:44:00 272
原创 Hadoop学习:深入解析MapReduce的大数据魔力(一)
在大数据时代,高效地处理海量数据成为了各行各业的迫切需求。Hadoop作为一种重要的大数据处理框架,其核心概念之一就是MapReduce。今天开始将深入了解MapReduce,探索其在大数据处理中的重要作用。MapReduce 是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。
2023-08-05 20:30:54 254 1
原创 Hadoop学习指南:探索大数据时代的重要组成——HDFS(下)
但是,如果长时间添加数据到Edits中,会导致该文件数据过大,效率降低,而且一旦断电,恢复元数据需要的时间过长。首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新FsImage,就会导致效率过低,但如果不更新,就会发生一致性问题,一旦NameNode节点断电,就会产生数据丢失。这样,一旦NameNode节点断电,可以通过FsImage和Edits的合并,合成元数据。
2023-08-05 11:43:10 246
原创 Hadoop学习指南:探索大数据时代的重要组成——HDFS(上)
随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS的使用场景:适合一次写入,多次读出的场景。
2023-08-01 08:24:39 205
原创 Hadoop学习指南:探索大数据时代的重要组成——运行环境搭建
Hadoop是大数据处理的重要工具,搭建Hadoop的运行环境是学习和应用Hadoop的第一步。通过安装JDK和配置Hadoop,我们可以轻松搭建一个强大的分布式计算平台,实现大规模数据处理和存储。通过学习Hadoop的搭建和配置,我们能够深入了解Hadoop的运行原理和机制。在后续的学习和实践中,我们将探索更多Hadoop的功能和应用,为大数据处理和分析提供更加全面和高效的解决方案。
2023-07-31 08:02:16 311
原创 Hadoop学习指南:探索大数据时代的重要组成——Hadoop概述
1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。2)主要解决,海量数据的存储和海量数据的分析计算问题。3)广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。Hadoop Distributed File System,简称 HDFS,是一个分布式文件系统。1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。
2023-07-30 17:32:01 1183
原创 汽车分析,随时间变化的燃油效率
数据集由以下列组成:这个项目的主要目标是了解汽车的不同特性之间的关系,以及它们如何影响燃油效率(MPG -每加仑英里数)。该项目还旨在发现数据中任何有趣的趋势或模式,从而为汽车行业提供见解。定义异常值的上限和下限。将异常值限制在一定范围内。重复这个过程,针对“重量”特征工程创建一个新的特征’hp_to_weight’,它是马力与重量的比率。检查前几行 DataFrame 以确认更改。随着时间的推移,燃油效率:平均每加仑英里数(mpg)似
2023-07-27 11:20:34 1152 1
原创 睡眠健康数据分析
本数据集涵盖了与睡眠和日常习惯有关的诸多变量。如性别、年龄、职业、睡眠时间、睡眠质量、身体活动水平、压力水平、BMI类别、血压、心率、每日步数、以及是否有睡眠障碍等细节。数据集的主要特征: 综合睡眠指标:探索睡眠持续时间、质量和影响睡眠模式的因素。生活方式因素:分析身体活动水平、压力水平和 BMI 类别。心血管健康:检查血压和心率测量值。睡眠障碍分析:确定失眠和睡眠呼吸暂停等睡眠障碍的发生。数据集列:人员 ID:每个人的标识符。性别:人员的性别(男性/女性)。
2023-07-26 21:46:53 4115 2
原创 爬取微博热搜榜并进行数据分析
用requests库访问页面用get方法获取页面资源,登录页面对页面HTML进行分析,用beautifulsoup库获取并提取自己所需要的信息。再讲数据保存到CSV文件中,进行数据清洗,数据可视化分析,绘制数据图表,并用最小二乘法进行拟合分析。
2023-07-26 10:34:10 6224 5
原创 Python实战项目——O2O_优惠券使用情况分析(五)
随着移动设备的完善和普及,移动互联网+各行各业进入了高速发展阶段,这其中以O2O(Online to Offline)消费最为吸引眼球。据不完全统计,O2O行业估值上亿的创业公司至少有10家,也不乏百亿巨头的身影。O2O行业关联数亿消费者,各类APP每天记录了超过百亿条用户行为和位置记录,因而成为大数据科研和商业化运营的最佳结合点之一。以优惠券盘活老用户或吸引新客户进店消费是O2O的一种重要营销方式。然而随机投放的优惠券对多数用户造成无意义的干扰。
2023-07-21 11:45:30 964 1
亚马逊 EDA 最畅销的太阳镜
2024-02-20
世界国家自杀率排名数据
2024-02-20
乳腺癌预测-EDA-Models breast-cancer-dataset.csv
2024-01-17
世界人口分析数据集原数据
2024-01-13
Python面试大全(详细)
2023-08-06
KNN算法教学ppt全面
2023-08-06
Snipaste截图工具
2023-08-06
FormatFactory格式工厂
2023-08-06
Traffic Monitor是一款用于Windows平台的网速监控悬浮窗软件
2023-08-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人