数据挖掘
文章平均质量分 93
Zda天天爱打卡
这个作者很懒,什么都没留下…
展开
-
数据集收集-包含《COVID-19》,《英国在线零售业务》,《电商行业用户行为分析数据集》,《电商婴儿用户》,《亚马逊手机》等17个数据集,用于数据分析挖掘,kaggle比赛练习
COVID-19数据集本数据集记录了2019年12月01日至2020年7月24日,每日精确到国家、省、市的确诊、疑似、治愈、死亡人数。2020年02月07后数据从今日头条接口采集,每小时57分自动更新。国家、省级历史数据会根据卫健委数据更新,市级历史数据与卫健委数据有差异(略小于)。提供CSV、JSON格式数据。通过本数据集,可以了解COVID-19爆发以来,国内各省和国外国家疫情变化情况。使用机器学习知识对其进行充分的挖掘,并以直观的形式表达出来。来源/收集过程:GitHub - canghai原创 2021-12-21 09:45:15 · 1434 阅读 · 0 评论 -
【天池】零基础入门数据挖掘-心跳信号分类预测-特征工程-提分点2-386,33名
赛题理解学习时间序列数据的特征预处理方法 学习时间序列特征处理工具 Tsfresh(TimeSeries Fresh)的使用比赛地址:https://tianchi.aliyun.com/competition/entrance/531883/introduction内容介绍数据预处理 时间序列数据格式处理 加入时间步特征time 特征工程 时间序列特征构造 特征筛选 使用 tsfresh 进行时间序列特征处理 代码参考https://tianc..原创 2021-03-22 11:06:12 · 1065 阅读 · 3 评论 -
【天池】零基础入门数据挖掘-心跳信号分类预测-baseline赛题数据分析+提分点1-410分,38名
数据分析EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠。完成对于数据的探索性分析,并对于数据进行一些图表或者文字总结并打卡。载入各种数据科学以及可视化库: 数据科学库 pandas、numpy、scipy; 可视化库 matplotlib原创 2021-03-19 22:50:21 · 1269 阅读 · 2 评论 -
【天池】零基础入门数据挖掘-心跳信号分类预测-baseline赛题理解
赛题理解2016年6月,国务院办公厅印发《国务院办公厅关于促进和规范健康医疗大数据应用发展的指导意见》,文件指出健康医疗大数据应用发展将带来健康医疗模式的深刻变化,有利于提升健康医疗服务效率和质量。赛题以心电图数据为背景,要求选手根据心电图感应数据预测心跳信号,其中心跳信号对应正常病例以及受不同心律不齐和心肌梗塞影响的病例,这是一个多分类的问题。通过这道赛题来引导大家了解医疗大数据的应用,帮助竞赛新人进行自我练习、自我提高。比赛地址:https://tianchi.aliyun.com/comp原创 2021-03-16 23:00:28 · 1432 阅读 · 0 评论