![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习原理
文章平均质量分 63
主要是常见的模型原理介绍
hhhh106
数据分析汪
展开
-
激活函数家族
关键词:sigmoid、relu、tanh、softmax、激活函数、梯度消失、梯度爆炸激活函数的作用是实现特征空间的非线性转换,这样模型才可以拟合任何训练数据,使训练数据线性可分。如果一个函数能提供非线性转换(即导数不恒为常数),可导(可导是从梯度下降方面考虑。可以有一两个不可导点, 但不能在一段区间上都不可导)等性质,即可作为激活函数。在不同网络层(隐藏层、输出层)的激活函数关注的重点不一样,隐藏层关注的是计算过程的特性,输出层关注的输出个数及数值范围。Sigmoid:取值范围在[.原创 2022-03-21 22:04:51 · 245 阅读 · 0 评论 -
ToVec家族
WordToVecuser桶Vecitemtovec做特征embebedding原创 2022-03-20 20:45:07 · 2080 阅读 · 0 评论 -
Deep&Wide、DeepFm的原理
1、原理原创 2022-03-27 20:51:34 · 1715 阅读 · 0 评论 -
文本处理—分词
一、分词算法1、词典分词--字符串匹配分词该算法是按照一定的策略将待匹配的字符串和一个已建立好的“充分大的”词典中的词进行匹配,若找到某个词条,则说明匹配成功,识别了该词。常见的基于词典的分词算法分为以下几种:正向最大匹配法、逆向最大匹配法和双向匹配分词法等。链接:https://www.jianshu.com/p/7377f6d24e87分词的难点:1、分词标准的制定2、歧义1)组合型歧义——比如“中华人民共和国”,粗粒度的分词就是“中华人民共和国”,细粒度的分词可能是“中.原创 2020-09-14 17:14:06 · 571 阅读 · 0 评论 -
不同模型加工特征的方式
多个模型特征处理方式对比原创 2021-11-20 18:45:09 · 528 阅读 · 0 评论 -
常见分类模型:决策树、随机森林、GBDT、XGB
1、决策树2、随机森林3、XGB4、LightGBM5、原创 2022-02-28 22:50:26 · 13043 阅读 · 0 评论 -
XGB原理总结记录
1、CART树Classification And Regression Tree(CART)是决策树的一种,并且是非常重要的决策树,属于Top Ten Machine Learning Algorithm。顾名思义,CART算法既可以用于创建分类树(Classification Tree),也可以用于创建回归树(Regression Tree)、模型树(Model Tree),两者在建树的过程稍有差异。创建的过程是:选择当前数据集中具有最小Gini信息增益的特征作为结点划分决策树。ID3算法和C4原创 2020-12-23 11:43:32 · 9527 阅读 · 0 评论 -
样本不均衡的解决办法
1、过采样 对于某个比较少的label,可以复制样本达到增大样本量的效果,一般这种方法不太合理,过分强调已有的样本,放大噪声样本,过拟合。 也可以结合SMOTE方法,这种方法不是单纯的重复样本,而是通过某种方式对已有的样本进行加工变换,产生与已有样本相近的样本,对噪声样本的抵抗性更强,降低了过拟合的风险,但还是存在一定的缺点。 适用于样本量较少的情况。2、欠采样 如果样本量级较大,可以对样本量比较大的label进行欠采样,量级不够多的情况下可能会损失部分样本...原创 2021-11-02 17:27:34 · 2604 阅读 · 0 评论