机器学习
文章平均质量分 92
tunghao
广告/机器学习/深度学习/PHM/
展开
-
向量距离、随机变量相关性与概率分布的差异度量
常见距离与相似度度量欧氏距离定义在两个向量(两个点)上:点x\mathbf{x}x和点y\mathbf{y}y的欧氏距离为:dEuclidean=(x−y)⊤(x−y) d_{Euclidean}=\sqrt{(\mathbf{x}-\mathbf{y})^\top (\mathbf{x}-\mathbf{y})} dEuclidean=(x−y)⊤(x−y)曼哈顿距离Manhattan Distance(L1范数),也称为城市街区距离(City Block distance)。定义在两个原创 2020-09-22 14:44:32 · 899 阅读 · 0 评论 -
集成学习之随机森林(RandomForest)
标题原创 2020-02-02 21:29:11 · 848 阅读 · 0 评论 -
集成学习之Xgboost、LightGBM对GBDT的改进
同层级节点,在选择最佳分裂点,进行枚举的时候并行。选择分类点方法:Weighted Quantile Sketch这个模型的参数是什么?因为我们知道,“知识”蕴含在参数之中。第二,用来优化这些参数的目标函数又是什么?xgboost可以支持自定义损失函数,只需满足二次可微即可。...原创 2020-02-02 21:06:11 · 2122 阅读 · 0 评论 -
深度学习之卷积神经网络(CNN)的设计准则
卷积神经网络结构卷积神经网络是多级神经网络,包含滤波级(filtering stage)与分类级(classification stage),其中,滤波级用来提取输入信号的特征,分类级对学习到的特征进行分类,两级网络参数是共同训练得到的。滤波级包含卷积层(convolutional layers),池化层(pooling layer)与激活层(activation layers)等3个基本单元,...原创 2020-02-02 10:46:08 · 5173 阅读 · 0 评论 -
深度学习之长短期记忆网络(LSTM)的网络结构
从Cell State开始在下面的过程中,我们总是用语言模型作为例子来说明,心中始终有个具体例子对照,可以大大减轻理解上的困难。来看这句话:“我是中国人,我会说中文”,我们的任务是根据这句话前面的内容,预测最后的两个字“中文”。要做到这一点,模型必须能够记住前面的信息,尤其是“中国人”。在LSTM中,记住前面的信息是通过Cell State来实现的。所以,在理解LSTM的结构时,应始终以 C...原创 2020-02-01 17:55:27 · 3026 阅读 · 2 评论 -
模型调参经验-LR、SVM、RF、GBDT、Xgboost、LightGBM
LRSVMXgboostCNNLSTM原创 2020-01-15 11:22:29 · 5046 阅读 · 0 评论 -
集成学习之梯度提升决策树(GBDT)
集成学习(ensemble learning)构建并结合多个学习器来完成机器学习任务。按照个体学习器之间是否存在依赖关系可以分为两类,两类各以Boosting系列和Bagging系列为典型代表。梯度提升树(Gradient Boosting Decision Tree)是Boosting系列中很重要的算法。1.集成学习集成学习的核心思想是:基于训练集,训练若干弱学习器,经过特定策略结合在一起,...原创 2019-01-11 16:36:07 · 891 阅读 · 0 评论 -
Logistic Regression 输出值的实际意义是什么?
logistic regression 用来解决分类问题。其核心思想是寻找一个非线性函数sigmoid的最佳拟合参数,求解过程可以由最优化算法来完成。算法的输出是0到1之间的值,这个值是真实的概率吗?带着这个问题,我们来一探究竟。logistic regression 可以概述为这样的过程:1.寻找合适的hypothesis函数,即我们要找的分类函数,一般表示为h函数,它用来预测输入数据的判断...原创 2019-02-10 20:56:21 · 4094 阅读 · 0 评论 -
无约束最优化问题求解--最小二乘、梯度下降和牛顿法原理推导对比
数据理论上是呈现线性关系,但是实际数据往往不是满足线性关系,但大体上的趋势呈现出线性关系。这个时候,我们最终希望得到的是唯一的线性关系,而不是一堆实验数据,所以产生了用一堆实验数据来确立理论上的线性关系的这样的问题。...原创 2019-08-25 10:21:33 · 2842 阅读 · 0 评论