数据挖掘
文章平均质量分 95
humashanshao
这个作者很懒,什么都没留下…
展开
-
数据挖掘--心跳信号分类预测
Task01--赛题理解赛题以心电图数据为背景,要求选手根据心电图感应数据预测心跳信号,其中心跳信号对应正常病例以及受不同心律不齐和心肌梗塞影响的病例,这是一个多分类问题。数据下载地址,比赛要求参赛选手根据给定的数据集,建立模型,预测不同的心跳信号。赛题以预测心电图心跳信号类别为任务,数据集报名后可见并可下载,该该数据来自某平台心电图数据记录,总数据量超过20万,主要为1列心跳信号序列数据,其中每个样本的信号序列采样频次一致,长度相等。为了保证比赛的公平性,将会从中抽取10万条作为训练集,2万条作.原创 2021-03-16 21:05:54 · 3937 阅读 · 0 评论 -
入门金融风控【贷款违约预测】
入门金融风控【贷款违约预测】赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题。通过这道赛题来引导大家了解金融风控中的一些业务背景,解决实际问题,帮助竞赛新人进行自我练习、自我提高。天池比赛Task01赛题概括(见上文)数据概括(了解数据概况)预测指标(学习各种预测指标)分析赛题数据概括train.csvid 为贷款清单分配的唯一信用证标识loanAmnt 贷款金额term 贷款期限(y翻译 2020-09-15 00:15:05 · 1167 阅读 · 1 评论 -
A城市巡游车与网约车运营特征对比分析【学习】
1原创 2020-09-10 00:45:02 · 543 阅读 · 1 评论 -
Linux下的Hadoop安装部署
环境使用:虚拟机VMware,Linux系统为Ubuntu18.04,Hadoop最新版下载链接:VMwareUbuntuHadoop下载SecureCRT用于本地与Linux进行文件传输,点击下载原创 2020-05-06 21:51:08 · 139 阅读 · 0 评论 -
task5模型融合
简单加权融合:回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean); 分类:投票(Voting) 综合:排序融合(Rank averaging),log融合stacking/blending:构建多层模型,并利用预测结果再拟合预测。boosting/bagging(在xgboost,Adaboost,GBDT中已经用到):...原创 2020-04-04 21:08:12 · 141 阅读 · 0 评论 -
task4建模与调参
1线性回归模型:线性回归对于特征的要求; 处理长尾分布; 理解线性回归模型;2模型性能验证:评价函数与目标函数; 交叉验证方法; 留一验证方法; 针对时间序列问题的验证; 绘制学习率曲线; 绘制验证曲线;3嵌入式特征选择:Lasso回归; Ridge回归; 决策树;4模型对比:常用线性模型; 常用非线性模型;5模型调参:贪心调参方法; 网格调参方法...原创 2020-04-01 21:45:47 · 82 阅读 · 0 评论 -
task3特征工程+task2EDA分析补充
由于task2打卡失误,仅包含赛题理解,所以在task3中做一个补充~~task2补充EDA中使用到的基本方法:data.shape()查看数据行列总数data.head().append(data.tail())查看首尾五行data.describe()查看均值,标准差,数据分布等data.info()数据信息data.isnull().sum()查看数据为空总数...原创 2020-03-28 20:16:30 · 160 阅读 · 0 评论 -
task1-赛题理解
此次赛题内容为二手车价格预测,本节主要理解字段及赛题要求。数据字段SaleID - 销售样本ID name - 汽车编码 regDate - 汽车注册时间 model - 车型编码 brand - 品牌 bodyType - 车身类型 fuelType - 燃油类型 gearbox - 变速箱 power - 汽车功率 kilometer - 汽车行驶公里 notRep...原创 2020-03-22 23:07:06 · 123 阅读 · 0 评论 -
数据竞赛房租预测——整理
以下将从本次学习的六个环节进行总结: 赛题分析 此部分学习了EDA描述性统计分析。学习并掌握了缺失值分析、单调特征列分析。数据分析的初步流程:查看标签info——>具体分析标签特征(单调性、出现频次、缺失率、分布情况)——>分析训练集时别忘了兼顾测试集 数据清洗 查看数据缺失情况后对造成的原因进行分析及处理;异常值同理。根据主观遴选,对部分标签进行深度...原创 2020-01-20 23:14:24 · 360 阅读 · 0 评论 -
数据竞赛房租预测——模型融合
Stacking!pip install mlxtendimport warningswarnings.filterwarnings('ignore')import itertoolsimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltimport matplotlib.gridspec ...原创 2020-01-19 23:20:52 · 346 阅读 · 0 评论 -
数据竞赛房租预测——特征工程+模型选择
数据处理def preprocessingData(data): # 填充缺失值 data['rentType'][data['rentType'] == '--'] = '未知方式' # 转换object类型数据 columns = ['rentType','communityName','houseType', 'houseFloor', ...原创 2020-01-12 23:40:04 · 421 阅读 · 0 评论 -
数据竞赛房租预测——数据清洗
缺失值分析及处理缺失值出现的原因分析 采取合适的方式对缺失值进行填充异常值分析及处理 根据测试集数据的分布处理训练集的数据分布 使用合适的方法找出异常值 对异常值进行处理 深度清洗分析每一个communityName、city、region、plate的数据分布并对其进行数据清洗任务二基于任务一的分析做数据清洗。两步操作统称EDA主要思路分析...翻译 2020-01-09 20:59:18 · 192 阅读 · 0 评论 -
数据竞赛房租预测——赛题分析
“2019未来杯高校AI挑战赛 > 城市-房产租金预测”目录 “2019未来杯高校AI挑战赛 > 城市-房产租金预测”一、赛题概述赛题说明线上比赛数据发放与结果提交比赛要求(略)二、赛题分析认识数据对比赛数据做EDA三、EDA分析导入包载入数据总体情况概览缺失值分析...翻译 2020-01-07 20:51:16 · 1149 阅读 · 0 评论