自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 天池街道字符识别 Task1--赛题理解

天池街道字符识别新人赛赛题理解一、数据预览二、分析一、数据预览如图,数据集中的图片是很多真实场景中的字符串截图。如图,标签是字典形式的文件。二、分析分析可得,这是一个非定长字符串识别的任务。由于标签数量不固定,所以如果采用分类模型,需要补充标签。如21补充为所有图中最多字符串长度的维度6,21XXXX。通过5个分类节点数为数字类别个数11的CNN对每一位进行分类后组合。也可以通过检测模型检测单个字符得出结果后再组合。如通过SSD,找出每一张图片单个字符的类别和位置,得出结果后根据坐标关系将字

2020-05-19 19:46:29 185

原创 Kaggle Ensembling Guide 学习笔记

原文链接gitHub链接1.Voting ensembles.投票集成 低相关度的模型预测适用问题 只要损坏不是完全不可预测的(有50%的可能性发生),那么信号就可以修复。重点:模型相关度要低1.加权投票——分类,回归好的模型统计更多的次数 理由:下级模型否决最佳模型的唯一方法是它们集体同意一个替代结果。这种集成方式只能在最佳模型上改善一点点,因为不是完全民主的投票适用问题:多个...

2020-04-13 13:10:02 226

原创 零基础入门数据挖掘 Task5 模型融合方法

模型融合1.加权融合加权融合分为三大类:1.对于回归问题或者概率形式表示的分类问题----算术平均融合(Arithmetic mean),几何平均融合(Geometric mean)2.分类问题----Bagging,投票多数决定3.综合----排序融合,log融合2.堆叠融合(stacking)以第一层多个不同模型的输出值作为第二层模型的输入,依次堆叠多层模型拟合预测。但是直接在...

2020-04-04 20:17:23 224

原创 零基础入门数据挖掘--Task4 建模调参

主要内容根据选用模型的特性对数据进行处理,比如线性回归对特征的要求,需要独热编码,需要归一化,处理长尾分布等等模型性能验证的的一些包的使用:评价函数与目标函数;交叉验证方法;留一验证方法;针对时间序列问题的验证;绘制学习率曲线;绘制验证曲线;特征选择的方法:直接、过滤、嵌入式(即通过模型输出的结果对特征进行选择,常用有带正则化的线性回归如lasso回归、Ridge回归、和决策树等进行模型...

2020-04-01 16:49:33 418

原创 Datawhale 零基础入门数据挖掘-Task3 特征工程

文章目录常见方法1.异常处理2.特征归一化/标准化3.数据分桶4.缺失值处理5.特征构造6.特征筛选7.特征降维8.代码演练9.经验总结常见方法1.异常处理通过箱线图分析删除异常值BOX-COX转换(处理有偏分布): 是统计建模中常用的一种数据变换,用于连续的响应变量不满足正态分布的情况。Box-Cox变换之后,可以一定程度上减小不可观测的误差和预测变量的相关性。长尾截断2.特征...

2020-03-27 14:48:18 195

原创 数据挖掘EDA学习

数据挖掘EDA学习"""EDA-数据探索性分析1.EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。2.当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。3.引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠。4.完成对于数据的...

2020-03-24 00:07:37 179

原创 记录腾讯算法校招实习一面经验

文章目录问题问题一.算法题1.一万大小数组和一亿大小数组交集 几种方法 时间复杂度2.给定数组求和为sum的两个元素 手撕代码二.机器学习1.GBDT的机制2.GBDT为什么比LR好3.L1正则化和L2正则化的区别4.Kmeans的流程和时间复杂度5.Xgboost调参经验6.对搜索引擎有什么理解三.CNN1.池化层的作用2.对CNN的理解四.语言1.C++和pyt...

2020-03-16 18:28:33 222

原创 正则表达式匹配

文章目录题目和C++代码算法思想牛客网链接题目和C++代码/*而'*'表示它前面的字符可以出现任意次(包含0次)。在本题中,匹配是指字符串的所有字符匹配整个模式。例如,字符串"aaa"与模式"a.a"和"ab*ac*a"匹配,但是与"aa.a"和"ab*a"均不匹配*/ bool match(char* str, char* pattern) { char *...

2020-03-13 19:46:05 272

原创 五木的第一篇CSDN博客

2020.3.10五木开始了CSDN博客之旅求按从小到大的顺序第N个丑数题目描述C++代码块算法思想第一次开始学习用MarkDown编辑器写博客,第一感觉是怎么落入了Web前端开发的感觉!第一篇博客就随意记录一下今天的算法编程题求按从小到大的顺序第N个丑数题目描述把只包含质因子2、3和5的数称作丑数(Ugly Number)。例如6、8都是丑数,但14不是,因为它包含质因子7。 习惯上我...

2020-03-10 23:20:32 108

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除