自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

两三点Water

一个差不多研究生的学习日记和总结

  • 博客(12)
  • 收藏
  • 关注

原创 ADMA‘23

该会议旨在汇集来自世界各地的数据挖掘专家,并为数据挖掘领域的原创研究成果提供一个领先的国际论坛,包括应用、算法、软件和系统,以及具有潜力的应用领域,如社交网络挖掘、智能交通、金融科技、智能制造、智能手机、生物医学科学、绿色计算等。第19届国际高级数据挖掘和应用会议(ADMA'23)的工业和从业者论文征集,涵盖数据挖掘方面的创新,包括应用、算法、软件和系统。提交将进行双盲审查。2023年标志着国际高级数据挖掘与应用会议(ADMA'23)的19周年,会议将于2023年8月21日至23日在中国沈阳举行。

2023-04-06 17:25:48 461

原创 逻辑回归

目录Q1:逻辑回归的原理Q2:逻辑回归为什么又叫对率回归Q3:逻辑回归为什么使用sigmoidQ4:信息熵的定义及推导过程Q5:逻辑回归损失函数的推导过程Q6:逻辑回归为什么要用交叉熵作为损失函数,为什么不用平方损失函数Q7:逻辑回归为什么可以表示概率,表示的是真实的概率吗?Q8:如何求解逻辑回归的损失函数Q9:逻辑回归如何防止过拟合Q10:逻辑回归如何做多...

2019-02-28 16:28:15 945

原创 线性回归及其变式

目录Q1:线性回归的原理Q2:线性回归损失函数的推导过程Q3:求解线性回归损失函数的方法有哪些Q4:如何解决共线性(待补充)Q5:如何防止过拟合Q6:分布式训练怎么做(待补充)Q7:正则化的目的和方法Q8:为什么L1正则化能产生稀疏解,L2则不可以Q1:线性回归的原理线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计...

2019-02-27 20:47:38 1008

原创 监督学习——综述

目录生成模型判别模型常见的损失函数0-1损失绝对值损失log对数损失平均绝对误差平方损失均方根误差指数损失Hinge损失Huber损失softmax损失参考博客大致写完了数据处理相关的部分,接下来就要手撕各种算法了。先从有监督学习算法开始,大致包括以下算法:感知机线性回归+Ridge+Lasso+ElasticNet+正则化...

2019-02-27 17:07:02 2290

原创 特征工程

目录特征组合特征选择特征提取主成分 分析线性判别 分析方法对比参考博客数据格式都一样了,缺失值异常值也都搞定了,特征编码也完成了,这个时候还不能进行交叉验证,还差一步,这一步就叫特征工程。主要涉及到了特征组合、特征选择、特征提取。需要首先说明的是,这里其实还有一个概念叫合成特征,特征组合是属于合成特征的,合成特征一般有以下三个方面。(1)将一个特征与其本身或...

2019-02-27 15:02:20 241

原创 数据清洗

目录特征编码序号编码独热编码二进制编码离散化缺失值填补异常值处理IQRZ-scoreDBSCAN孤立森林归一化标准化补充参考博客这里我们不说图片数据,图片数据的处理有专门的CV方向,我们就来说说文本数据或者“数字数据”。对于文本数据,显然计算机没办法处理,比如说“星期一”,计算机看不懂,怎么办?答:可以变成数字。注:其...

2019-02-27 10:55:35 7852

原创 数据处理——综述

当我们得到一份数据之后,一份新鲜的数据摆在你的面前,它可不是一盘可以直接吃的美味沙拉,这是一盘你刚从超市买回来的菜,需要经过一定的清洗和爆炒才能变成美食,供机器学习算法使用。所谓清洗,指的就是数据清洗。所谓爆炒,指的就是特征工程。经过了这两个漫长的步骤,你才可以开始使用各种模型去拟合数据,最终得到符合预期能力的模型。为什么说是漫长的步骤呢,因为通常在套用模型之前的这些数据准备工作,往往...

2019-02-26 22:15:58 686

原创 性能评估

目录分类模型评估指标精确率/错误率查准率/查全率混淆矩阵F1-scoreFβ ScoreP-R 曲线ROC 曲线AUC面积总结回归模型评估指标MAEMSERMSER2MAPE参考博客一言以蔽之,所谓性能评估,简单来说就是运用一些数学方法去衡量模型/算法用在这个数据集上,到底好不好(泛化能力)。通常我们在谈及机器学习算法...

2019-02-25 16:48:53 2732

原创 模型选择

目录交叉验证数据划分采样泛化能力简单交叉验证k折交叉验证留一法自助法参数调优网络搜索随机搜索贝叶斯优化算法拟合能力欠拟合过拟合参考博客交叉验证当数据清洗完毕,一切等待就绪时,我们如何能知道,到底什么算法才真正适合这份数据集呢?假设有多种可能的模型,而我们不能确定哪一种是最好的。那么我们就需要测试每一个模型训练后的泛化误...

2019-02-24 20:50:00 2962

原创 机器学习简介

机器学习是什么?个人理解 从大数据的角度出发,机器学习就是运用统计学、概率论、数学、计算机科学等相关领域的知识,利用算法模型从数据中发现知识的过程,说的高级一点,就是从数据视角窥探世界的奥秘。图片来源:https://zhuanlan.zhihu.com/p/34447991机器学习(or 数据挖掘)的步骤收集数据:网络爬虫、使用公开的数据源等; 准备数据:前期数...

2019-02-24 16:49:39 194

原创 机器学习历史

目录综述监督学习无监督学习半监督学习深度学习强化学习参考博客综述最早的机器学习算法可以追溯到20世纪初,到今天为止,已经过去了100多年。总体上,机器学习算法可以分为有监督学习、无监督学习、半监督学习、强化学习4种类型。监督学习 又称为又教师学习,可以理解为有教师教机器的学习过程,说的专业点就是有数据标签,“标签”就是教师。无监督学习 就是自己...

2019-02-24 16:04:41 3058

原创 【个人Onenote笔记】整理+搬运

2019年,到了一个该找实习该工作的年份。一年多以前,自己就在琢磨是否要写一个个人的博客,用于整理自己学过的知识以及做一点小小的分享。一年多以来,自己一直没有下定决定要在博客上面写点什么,原因很简单,一是自己的水平实在有限,二是确实费时间。一年后现在,自己的Onenote笔记已经积累了大量大量的个人笔记,在寻找实习的过程中才发现,大家似乎更期待一个个人博客,而不是私人的电子笔记本,无论...

2019-02-24 15:06:15 8902 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除