比赛
文章平均质量分 61
数据挖掘,深度学习的比赛
love1005lin
自律及自由
展开
-
个人比赛证书
原创 2021-10-09 15:10:09 · 189 阅读 · 0 评论 -
天池ORC文本识别任务比赛(二)
前期处理Baseline所遇到的问题如上篇文章所说,文章链接如下:https://mp.csdn.net/mp_blog/creation/editor/118769772上分策略:1.调整模型的超参数并且重新finetune2.改进检测的流程(前置方向检测等)3.尝试在其他模型基础上进行finetune(例如运用完整的端到端ORC模型,PGNet)4.添加均衡化和透视变换等预处理5.搭建更优的模型结构并且从零进行训练对于该比赛题目进行数据增强的策略:1.锐化,对原创 2021-07-19 21:33:13 · 185 阅读 · 0 评论 -
天池ORC文本识别任务比赛
赛题链接:https://tianchi.aliyun.com/competition/entrance/531902/information原创 2021-07-15 21:53:28 · 269 阅读 · 0 评论 -
数据挖掘比赛-天池工业蒸汽量预测
赛题背景火力发电的基本原理是:燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多,包括锅炉的可调参数,如燃烧给量,一二次风,引风,返料风,给水水量;以及锅炉的工况,比如锅炉床温、床压,炉膛温度、压力,过热器的温度等。评测指标预测结果以mean square error作为评判标准。赛题链接https://tianchi.aliyun.com原创 2021-05-23 21:34:04 · 183 阅读 · 0 评论 -
数据挖掘比赛-天池挖掘幸福感
赛题背景在社会科学领域,幸福感的研究占有重要的位置。这个涉及了哲学、心理学、社会学、经济学等多方学科的话题复杂而有趣;同时与大家生活息息相关,每个人对幸福感都有自己的衡量标准。如果能发现影响幸福感的共性,生活中是不是将多一些乐趣;如果能找到影响幸福感的政策因素,便能优化资源配置来提升国民的幸福感。目前社会科学研究注重变量的可解释性和未来政策的落地,主要采用了线性回归和逻辑回归的方法,在收入、健康、职业、社交关系、休闲方式等经济人口因素;以及政府公共服务、宏观经济环境、税负等宏观因素上有了一系列的推测和发现原创 2021-05-18 21:37:25 · 287 阅读 · 0 评论 -
心跳信号分类预测(一)
赛题数据赛题以预测心电图心跳信号类别为任务,该数据来自某平台心电图数据记录,总数据量超过20万,主要为1列心跳信号序列数据,其中每个样本的信号序列采样频次一致,长度相等。为了保证比赛的公平性,将会从中抽取10万条作为训练集,2万条作为测试集A,2万条作为测试集B,同时会对心跳信号类别(label)信息进行脱敏。链接:比赛连接评价标准选手需提交4种不同心跳信号预测的概率,选手提交结果与实际心跳类型结果进行对比,求预测的概率与真实值差值的绝对值。具体计算公式如下:总共有n个病例,针对某一个信号,若真原创 2021-03-16 09:33:31 · 2429 阅读 · 2 评论 -
心跳信号分类预测(五)
模型融合模型融合的方法简单加权融合:回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean);分类:投票(Voting)综合:排序融合(Rank averaging),log融合stacking/blending:构建多层模型,并利用预测结果再拟合预测。boosting/bagging(在xgboost,Adaboost,GBDT中已经用到):多树的提升方法模型融合的三种信条:1.群众的力量是伟大的 —原创 2021-03-28 20:01:15 · 371 阅读 · 0 评论 -
心跳信号分类预测(四)
文章目录第二章 机器学习基础2.1 基本概念2.1.1 大话理解机器学习本质2.1.2 什么是神经网络2.1.3 各种常见算法图示2.1.4 计算图的导数计算2.1.5 理解局部最优与全局最优2.1.5 大数据与深度学习之间的关系2.2 机器学习学习方式2.2.1 监督学习2.2.2 非监督式学习2.2.3 半监督式学习2.2.4 弱监督学习2.2.5 监督学习有哪些步骤2.8 分类算法2.8.1 常用分类算法的优缺点?2.8.2 分类算法的评估方法2.8.3 正确率能很好的评估分类算法吗2.8.4 什么样原创 2021-03-24 20:41:04 · 575 阅读 · 0 评论 -
心跳预测分类(三)
111原创 2021-03-22 21:43:06 · 239 阅读 · 0 评论 -
心跳信号分类预测(二)
数据分析1 总览数据概况:describe中有每列的统计量,个数count、平均值mean、方差std、最小值min、中位数25% 50% 75% 、以及最大值 看这个信息主要是瞬间掌握数据的大概的范围以及每个值的异常值的判断,比如有的时候会发现999 9999 -1 等值这些其实都是nan的另外一种表达方式,有的时候需要注意下。info 通过info来了解数据每列的type,有助于了解是否存在除了nan以外的特殊符号异常。data.describe()——获取数据的相关统计量data.inf原创 2021-03-19 13:41:39 · 345 阅读 · 1 评论