![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习
文章平均质量分 90
机器学习,深度学习,强化学习算法专栏
唐犁
北邮学通信的,YouTube技术视频@li-tang
展开
-
排序算法模型(1):对数几率回归(Logistic Regression)
对数几率回归(LR)是机器学习的入门分类器,属于广义线性回归,解决了线性回归不擅长的分类问题,常用于二分类。由于点击率的预估(CTR)模型往往被理解为判别“曝光后被点击”与“曝光后未被点击”的二分类模型,因此早期的CTR模型经常选择LR。由于模型的复杂度低,可以并行加速等特点,LR在今天依旧被作为很多个性化推荐产品最早一版的CTR排序模型。原创 2021-06-04 11:47:51 · 373 阅读 · 1 评论 -
排序算法模型(2):决策树与随机森林
当使用决策树对目标数据进行分类时,若原始数据共有n个特征,则可以通过将所有数据输入至决策树的树根,然后以一个特征维度对数据进行分类。对于每个子类而言,再从剩余的n−1个特征中选择一款,对其进行分类。循环往复,可以得到不断被细分之后的子类。对于特征而言,如果其本身就是离散的,则可以直接根据特征本身进行分类。比如性别可以按照男、女、其他分为三类。如果特征连续,则需要设定阈值进行分类。比如年龄可以按照0-18,19-25,26-40,40岁以上进行分类。原创 2021-06-04 12:00:07 · 404 阅读 · 0 评论 -
排序算法模型(5):支持向量机(SVM)
SVM可以说是泛化能力很强的优质分类器,准确率也很高。相比于LR和RF,SVM难点在于调参。RF更多的注重效率,在模型训练以及特征选择上省下了大把时间。LR学习速率也快于SVM,比较通用,精确度和效率都不错。原创 2021-06-04 15:51:29 · 952 阅读 · 0 评论 -
排序算法模型(8):使用Attention机制结合FM的CTR预估模型AFM
由于LR在特征工程上的高昂成本,具有隐性特征交叉向量的FM()成为挖掘二阶特征组合的CTR预估。FM的核心思路是,为每一个特征设置一个隐向量,根据该向量的值来表示该特征与其他特征之间的关系。对于任意两个特征的组合,只需要求出两个隐向量的内积即可得到其权重值。FM在CTR预估作业上的潜力被不断挖掘,先是FFM()提出了“field”概念。原始的FM是每个特征只有一个隐向量wi,而FFM则认为特征应该被分为不同的field,如果一共被分为n个不同field的话,每个特征就应该具备n个不同的隐向量。原创 2022-04-07 00:34:20 · 425 阅读 · 0 评论 -
排序算法模型(9):优化特征交叉方式的积基神经网络(PNN)
2016年SJTU与UCL合作了一篇论文《》,这篇文章提出了FM和FNN等CTR预估算法的局限性,试图通过在神经网络中引入product layer来解决特征之间交互的问题,并命名为Product-based Neural Networks,积基神经网络。论文发表之后,product layer逐渐成为CTR预估模型中的常见配置,算是众多rank模型中的一个经典款。原创 2022-04-09 22:21:50 · 1429 阅读 · 0 评论 -
排序算法模型(10):使用Attention挖掘历史数据的深度兴趣网络(DIN)
DIN()是阿里巴巴用于解决工业级CTR预估问题的预测模型,论文收录于KDD 2018。这篇论文的主要贡献有三点:提出了DIN模型;提出了mini-batch aware regularizer来减少计算量和规避过拟合;根据输入数据的分布设计了Dice激活函数。对于cost-per-click(CPC)型的广告系统,广告通常是基于eCPM(effective cost per mille)排序的,eCPM是广告竞价与系统预估的CTR的乘积。原创 2022-07-07 11:23:29 · 321 阅读 · 0 评论 -
序列化推荐算法(1):循环神经网络(RNNs)
循环神经网络(Recurrent Neural Networks)是一种可以用于预测的神经网络,它可以分析诸如股票价格之类的时序数据,并告诉你何时应该买入/卖出。同时也可以在自动驾驶系统中,预测车辆的行进轨迹,从而避免发生交通事故。与其他许多神经网络不同的是,RNNs对于输入的序列长度没有要求。也就是说,你可以将长短不一的参数序列传入RNNs,比如任意一篇文章,或者任意一段音频的采样。这也是RNNs经常被应用于NLP领域的原因之一。.........原创 2022-08-22 17:23:42 · 2097 阅读 · 0 评论 -
TabTransformer:借助Transformer的预训练机制处理表格数据
表格数据是推荐系统,线上广告,画像优化等领域中最为常见的数据形式。此前对表格数据的建模主要集中于基于梯度提升的树模型,比如GBDT,这与图像和文本数据依赖深度学习差异明显。原创 2022-04-07 00:33:59 · 2547 阅读 · 0 评论 -
LUNAR:基于图神经网络统一局部异常检测算法
AAAI 2022上的论文《LUNAR: Unifying Local Outlier Detection Methods via Graph Neural Networks》提出了一种基于图神经网络进行异常检测的框架,统一了常见局部异常检测方法的同时,也一定程度上解决了局部异常检测算法超参数无法学习,难于优化的问题。原创 2022-09-22 15:23:37 · 1524 阅读 · 3 评论 -
使用主成分分析(PCA)进行特征降维
主成分分析(Principal Component Analysis)是一种无监督的降维算法。不同于,PCA不需要数据集中包含类别标签,其核心思想是将高维特征映射到新的空间后,按照新空间各个特征重要性有序选取坐标轴。新空间构建时,第一个坐标轴选取原始数据映射后方差最大的方向,后续坐标轴均保证与之前坐标轴正交的情况下方差最大,重复该过程直至新空间维度与原始特征数相等,或新空间维度数量达到降维需求。原创 2021-07-30 14:50:21 · 953 阅读 · 2 评论