Madazy-CSDN博客

原创最邻近搜索之KD-Tree 与 LSH

最邻近搜索之KD-Tree 与 LSH什么是最邻近搜索问题？在内容搜索、推荐系统和一些机器学习算法常常遇到最邻近搜索问题，在大数据场景下，O(n)的时间复杂度往往是不能被接受的，所以需要一些方法来返回近似的解或用空间复杂度以换取更优的时间开销。什么是最邻近搜索问题？...

2019-06-18 09:25:06 705

1.为什么需要DDPG？强化学习的概念在这不再赘述，是一个agent在与环境不断交互，采用action得到reward，为了达到最大的累计奖励值的过程。所以强化学习的核心在于学习根据当前agent的state采用action的策略。大家都很熟悉的算法有Q-learning(Deep Q Learning)、SARSA，但是这两种方法针对的动作空间都是离散的，即有限的。从Q-learning到D...

2018-11-26 14:47:35 4673

原创特征组合之DeepFM

特征组合之DeepFM1. 为什么需要DeepFM？我们在之前的文章中提到FM, FMM，理论上，FM可以处理高阶的特征组合，但由于计算复杂度的原因，一般只处理二阶的特征组合（即在FM章节提到的度为2的FM）。所以我们很一般地想到用DNN的方法来解决拟合更高阶的特征组合。注：可以很显然地得知，高阶的特征组合的参数时阶乘上涨的。比如2阶的FM的特征组合部分的参数数量时 C（n，2），则三阶的时...

2018-11-22 13:20:20 2227

原创特征组合之FFM

FFM(Field-aware Factorization Machine)1. 为什么需要FMM？Field-aware即通过引入field的概念，FFM把相同性质的特征归于同一个field。基于FM，提高FM模型的表达能力和复杂度，从而提高FM的学习能力。2. 什么是FMM&FMM的推导？与FM相似，在线性回归的模型上引入特征组合部分。与FM不同的是，特征组合部分的隐向量多了...

2018-11-21 12:20:43 1429

原创特征组合之因子分解机(FM)

特征组合之因子分解机(FM)1. 为什么需要因子分解机？在上一篇博客特征组合中提到，暴力交叉会导致特征组合的特征稀疏的问题，所以FM(Factorization Machine)主要目标是：解决数据稀疏的情况下，特征怎样组合的问题。核心：对于因子分解机FM来说，最大的特点是对于稀疏的数据具有很好的学习能力。2.什么是FM因子分解机？FM因式分解机是一种基于LR模型的高效的学习特征间相互...

2018-11-20 21:32:12 2003

原创算法设计之概率算法

算法设计之概率算法1.为什么需要概率算法？与确定性算法相比，若冒险，可能做得更好！概率算法的分类？数字算法。求数字问题的近似解求数字问题的近似解Monte Carlo算法 (MC算法)这里我们指的MC算法是：若问题只有1个正确的解，而无近似解的可能时使用MC算法。特点：MC算法总是给出一个答案，但该答案未必正确，成功(即答案是正确的)的概率正比于算法执行的时间。缺点：...

2018-11-19 13:16:38 3368

原创机器学习之特征组合、特征交叉

机器学习之特征组合、特征交叉为什么需要特征组合、特征交叉？特征交叉是数据特征的一种处理方式，通过特征组合的方式增加特征的维度，以求得更好的训练效果。在实际场景中，我们常常遇到这要的情况，线性分类起无法在如下样本中（无法画一条直线将下列黄点和蓝点分开），所以特征组合是一种让线性模型学习到非线性特征的方式：例如在广告模型中用到了大量的特征组合，因为LR是广告推广中最常用的模型，但...

2018-11-15 20:27:52 14659

原创机器学习之数据预处理

机器学习之数据预处理1. 为什么需要数据预处理？原始数据来自于现实场景，常常有以下几个特征：脏、乱、差、缺。脏体现在原始数据里混杂许多噪声数据，乱体现在原始数据各维度量纲不同一。差体现在数据错误、出现不寻常不一致，这和脏相似。缺体现在原始数据的某些数据段值的缺失。2. 数据预处理的方法。脏乱——归一化、标准化、中心化归一化、标准化和中心化是数据预处理中重要的方法：归一化和标准化的区...

2018-11-14 10:59:08 656

原创机器学习之特征提取

机器学习之特征提取1.为什么要特征提取原始数据常常是高维的，其中包含了许多冗余信息或者十分稀疏或者计算量大，拿原始数据来训练可行，但是往往直接训练是低效的。所以特征提取往往是必要的。注：特征提取主要是为了解决下面三个问题，（1）原始数据特征中的强相关性造成的冗余信息。（2）原始数据十分稀疏。（3）原始数据维度巨大。2.特征提取的主要方法。主成分分析(PCA)主成分分析是特征提取中的常...

2018-11-13 21:12:41 14373

原创优化问题之子模问题

优化问题之子模问题什么是子模函数？维基百科核心：这涉及到一个边际效应递减，边际效应递减指的是当集合中元素较少或没有时加入一个元素会带来巨大的效益，当集合中已经有许多元素时，加入一个新的元素会带来的收益较微小。注：一个非负的子模函数也是次模加性函数，次模加性函数指两个集合并集的函数值最大可以取到两个集合各自函数值的和。上述三个不等式，当且仅当集合是无穷的时候成立。2. 有哪些常见...

2018-11-12 16:03:29 5523

原创机器学习之样本不平衡

机器学习之样本不平衡1.样本不平衡导致什么问题？在机器学习的分类问题中，以二分类为例，如果训练集合的正例和负例的样本不平衡，相差悬殊很大。比如针对这个不平衡的训练结合运用逻辑回归的时候，一般来说，逻辑回归的阈值0~1，常取0.5，当样本不平衡时，采用默认的分类阈值可能会导致输出全部为反例，产生虚假的高准确度，导致分类失败。样本不均衡会导致：对比例大的样本造成过拟合，也就是说预测偏向样本数较多...

2018-11-09 11:09:14 1602

原创半监督学习算法——ATDA(Asymmetric Tri-training for Unsupervised Domain Adaptation)

Asymmetric Tri-training for Unsupervised Domain Adaptation (2017 ICML)论文笔记AbstractTri-training(周志华，2005, 无监督学习领域最经典、知名度最高的做法)利用三个分类器按照“少数服从多数”的原则来为无标签的数据生成伪标签，但这种方法不适用于无标签的目标域与有标签的源数据不同的情况。ATDA要解...

2018-11-07 18:19:06 4251 1

原创半监督学习

半监督学习什么是半监督学习？机器学习三大类别监督学习、无监督学习和强化学习，半监督学习是监督学习和无监督学习的特例。所谓监督学习，指的是给定完整标签，让模型从数据和标签中学习关系；而所谓无监督学习则是不给标签，让模型从数据中学习它本身的结构。半监督学习结合了监督学习和无监督学习方法，能在有标签但标签不完整的数据中使用机器学习算法。半监督学习利用带标签的数据与无标签的数据共同完善训练效果。P...

2018-11-06 18:38:49 2327

原创由最简单的线性回归出发

由最简单的线性回归出发欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入一、什么是...

2018-11-06 18:38:38 306

Madazy的博客