python数据分析
文章平均质量分 90
记录初学python学习历程,记录学习笔记
卷末
热忱的,不可磨灭的。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
医学数据分析实训 项目三 关联规则分析预备项目---购物车分析
【代码】医学数据分析实训 项目三 关联规则分析预备项目---购物车分析。原创 2024-09-16 15:20:21 · 705 阅读 · 0 评论 -
医学数据分析实训 项目八 医疗保险欺诈行为分析
1. 结合业务理解和分析,分别为投保人和医疗机构构建特征;2. 对投保人和医疗机构的行为进行特征分析;3. 通过聚类算法发现投保人和医疗机构中存在的疑似欺诈行为。## 二 实现步骤1. 抽取医疗保险的历史数据;2. 对抽取的医疗保险的历史数据进行描述性统计分析,分析投保人信息和医疗机构信息;3. 采用聚类算法发现投保人和医疗机构中存在的疑似欺诈行为;4. 对疑似欺诈行为结果和聚类结果进行性能度量分析,并进行模型优化。原创 2024-09-23 11:00:00 · 2828 阅读 · 0 评论 -
医学数据分析实训 项目十 基于深度残差神经网络的皮肤癌检测
皮肤镜图像是检查皮肤癌黑色素瘤的主要手段。本实践项目通过构建深度残差神经网络提取皮肤镜图像的高维特征,使用残差学习防止网络梯度退化,降低网络训练的难度,实现黑色素瘤的有效识别。实践项目所使用的数据集由多名患者的皮肤癌组织纤维图像组成,分为训练集和预测集,每部分包含良性(benign,标签定义为1)和恶性(malignant,标签定义为0)两种。请将皮肤癌组织显微图像进行预处理,并在处理后的数据集基础上,运用基于深度残差神经网络模型对训练集进行训练,并对测试集进行预测。原创 2024-09-19 13:23:58 · 2135 阅读 · 0 评论 -
医学数据分析实训 项目九 糖尿病风险预测
本实践项目的数据集包含“train.csv”和“test.csv”两部分,部分特征名已经做了脱敏处理。训练集中包含年龄、性别、各项体检指标及目标血糖值。测试集相对于训练集缺少了对应的血糖值。训练集中包含 42个数据特征,其中 37 个为医学指标特征,数据集中的第一行为特征名称,其余每行代表一个个体。部分特征内容在部分人群中有缺失。请将以上体检数据集进行预处理,并在处理后的数据集的基础上,结合交叉验证,运用一种基于决策树算法的梯度提升框架的 LightGBM 算法对训练集进行训练,建立预测模型,实现血糖预原创 2024-09-18 15:25:34 · 1878 阅读 · 8 评论 -
医学数据分析实训 项目七 集成学习--空气质量指标--天气质量分析和预测
优化后的模型预测空气API结果: [‘C’ ‘B’ ‘B’ ‘B’ ‘A’ ‘B’ ‘A’ ‘A’ ‘B’ ‘B’ ‘A’ ‘B’ ‘B’ ‘A’ ‘A’ ‘A’ ‘A’ ‘B’GBM分类模型预测结果: [‘C’ ‘B’ ‘B’ ‘B’ ‘A’ ‘B’ ‘A’ ‘A’ ‘B’ ‘B’ ‘A’ ‘B’ ‘B’ ‘A’ ‘A’ ‘A’ ‘A’ ‘B’优化后的模型预测结果: [124.50273685 83.46470773 76.67313626 71.43908717 46.06087546。原创 2024-09-18 11:30:00 · 1326 阅读 · 0 评论 -
医学数据分析实训 项目五 分类分析--乳腺癌数据分析与诊断
优化后的准确率: 0.9649122807017544, 精确率: 0.9534883720930233, 召回率: 0.9534883720930233, F1 值: 0.9534883720930233。优化后的准确率: 0.9649122807017544, 精确率: 0.975609756097561, 召回率: 0.9302325581395349, F1 值: 0.9523809523809523。最佳 k 值: 9, 对应的准确率: 0.9649122807017544。原创 2024-09-18 11:00:00 · 1803 阅读 · 0 评论 -
医学数据分析实训 项目五 聚类分析--蛋白质消费结构分析--车辆驾驶行为指标
本项目实践所涉及的业务为不同国家蛋白质消费结构分析,主要从数据集中选取不同国家蛋白质食品的消费数据,在此基础上通过k-means算法模型对其进行迭代求解的聚类分析,最后评价聚类效果的优度。分别绘制以上四种聚类方法对应的聚类结果散点图,并进行对比。最优的聚集次数为:5。最优的聚集次数: 2。原创 2024-09-17 11:00:00 · 2085 阅读 · 0 评论 -
医学数据分析实训 项目四 回归分析--预测帕金森病病情的严重程度
“parkinsons_updrs.data”,专注于通过远程监测设备记录帕金森病患者的语音信号来预测病情严重程度。训练集准确率 (R^2): 0.8968939783000226。测试集准确率 (R^2): 0.8984946250185042。目标向量 y_motor 的形状: 5875。目标向量 y_total 的形状: 5875。特征矩阵 X 的形状: (5875, 4)训练数据数量: 4406。测试数据数量: 1469。原创 2024-09-16 17:07:28 · 1900 阅读 · 0 评论 -
医学数据分析实训 项目三 关联规则分析作业--在线购物车分析--痹症方剂用药规律分析
针对数据集 Online Retail.xlsx进行预处理。通过 matplotlib.pyplot的 scatter函数绘制出提升度不小于1的关联规则的散点图,横坐标设置为支持度,纵坐标为置信度,散点的大小表示提升度。数据集“痹症方剂.xls“记录了治疗痹症的用药药方,请使用关联规则算法生成频繁项集,并计算关联度。(最小支持度及支持度、提升度等度量指标可自行决定。提交任务一和任务二的全部实现代码。原创 2024-09-16 15:30:35 · 1611 阅读 · 0 评论 -
医学数据分析实训 项目二 数据预处理预备知识(数据标准化处理,数据离差标准化处理,数据二值化处理,独热编码处理,数据PCA降维处理)
使用StandardScaler进行数据预处理。原创 2024-09-14 15:57:25 · 1716 阅读 · 0 评论 -
医学数据分析实训 项目二 数据预处理作业
合并数据集 “healthcare-dataset-stroke.csv” 和 “healthcare-dataset-age_abs.csv”,合并之后的数据集以 “healthcare” 命名。breast-quad乳房四象限: left_low、right_up 等表示肿瘤所在的乳房区域,分别对应左乳房下象限、右乳房上象限等。inv-nodes淋巴结受累情况: 0-2 表示受累淋巴结的数量在 0 到 2 个之间。node-caps淋巴结包膜破裂: no 表示淋巴结包膜未破裂,yes 表示包膜破裂。原创 2024-09-14 15:55:45 · 2502 阅读 · 0 评论 -
医学数据分析实训 项目一 医学数据采集
这是一个关于肝癌(HCC)环状RNA(circRNA)研究的表达矩阵。每一行代表一个特定的circRNA(由"ID_REF"标识),每一列代表一个样本(由GSM编号标识)。在你提供的数据集中,"ID_REF"后面的数据是基因或探针的表达值,这些值对应于不同的样本(GSM编号)。这些值可以用来分析circRNA在不同样本中的表达差异,从而研究其在肝癌发生发展中的作用。在 GEO 中检索肝癌(HCC)环状 RNA(circRNA)研究数据(图 6)。查看下载的数据集文件(图 10),并对该数据集进行解释。原创 2024-09-14 01:24:31 · 1908 阅读 · 0 评论 -
day14-抖音用户数据分析
解决matplotlib库中的字体设置和Unicode minus问题data字段含义第一列是未定义的字段, 是顺序的, 但是不连续, 可能是过处理以后的数据集uid:用户iduser_city:用户所在城市item_id:作品idauthor_id:作者iditem_city:作品城市channel:观看到该作品的来源finish:是否浏览完作品music_id:音乐idduration_time:作品时长 (秒)real_time:作品发布时间。原创 2023-11-23 15:12:15 · 3780 阅读 · 3 评论 -
day13 黑色星期五案例
性别方面: 男性的消费能力比女性要高婚否: 购买商品的人, 未婚的比已婚的购买人数多, 未婚的比已婚的采购额要高, 男性的婚姻状况对男性的采购额影响较大年龄: 18 - 45 年龄范围的人, 消费能力要强城市: B城市猜测是中大型城市, 消费能力要高于其他城市居住年限: 居住一年左右的人群消费能力要高, 后续随着居住年限的增加, 消费能力会降低职业: 不同职业消费能力差异大, 营销策划重点可以放在 [ 14 20 12 17 1 7 0 4 ]原创 2023-11-23 14:18:30 · 1275 阅读 · 0 评论 -
day11-seaborn
Seaborn 是一个基于且数据结构与统一的统计图制作库。Seaborn 框架旨在以数据可视化为中心来挖掘与理解数据。它提供的面向数据集制图函数主要是对行列索引和数组的操作,包含对整个数据集进行内部的语义映射与统计整合,以此生成富于信息的图表。在终端安装:官方文档:http://seaborn.pydata.org/index.html中文文档: https://seaborn.apachecn.org/#/README(需要加速)博主可以无偿私发。原创 2023-11-10 17:04:15 · 241 阅读 · 1 评论 -
day7-Pandas数据清洗
但是这么做也会把非缺失值一并剔除,因为可能有时候只需要剔除全部是缺失值的行或列,或者绝大多数是缺失值的行或列。在标签方法中,标签值可能是具体的数据(例如用 -9999 表示缺失的整数),也可能是些极少出现的形式。我们将用一个单独的值来填充缺失值,例如用 0,也可以用缺失值前面的有效值来从前往后填充(forward-fill)与从后往前填充(back-fill)还有两种很好用的缺失值处理方法,分别是 dropna()(剔除缺失值)和 fillna()(填充缺失值)duplicated() 判断重读数据。原创 2023-10-30 11:02:59 · 130 阅读 · 1 评论 -
miniconda环境搭建和Jupyter Notebook入门使用
1,配置conda镜像源,使用清华的镜像源加速,“Win”+R ,输入cmd进入cmd终端,输入以下指令回车执行miniconda解释器安装好,继续在终端执行以下命令:2 安装Jupyter包3 拓展模块4 更新nbconvert,不然可能不适配5 适配模块6 拓展插件7 适配插件8 安装pep8代码规范的模块9 安装拓展包依赖的第三方功能模块10 输入命令环境搭建好后,在命令行下输入命令,会自动打开默认浏览器, 少数win11系统不会自动打开浏览器.点击链接也可进入11 打开以后,在。原创 2023-10-12 17:42:04 · 3432 阅读 · 0 评论 -
day2 - 初学matplotlib
matplotlib是一个 Python的2D图库,以下是终端安装代码。原创 2023-10-14 20:41:13 · 177 阅读 · 1 评论
分享