机器学习
然后就去远行吧
我们的目标是星辰大海~
展开
-
机器学习中的alpha学习率参数
首先看一个简单的梯度下降的例子:weight = 0.5goal_pred = 0.8input = 0.5for iteration in range(20): pred = input * weight error = (pred - goal_pred) ** 2 delta = pred - goal_pred weight_delta = delta * input weight = weight - weight_delta p原创 2020-08-20 21:20:36 · 5713 阅读 · 0 评论 -
逻辑回归
目录1、简介2、正式介绍3、对逻辑回归的进一步提问4、逻辑回归的优缺点5、为什么逻辑回归需要归一化6、逻辑回归中连续特征离散化的好处7、逻辑回归能否解决非线性的分类问题1、简介逻辑回归是面试当中非常喜欢问到的一个机器学习算法,因为表面上看逻辑回归形式上很简单,很好掌握,但是一问起来就容易懵逼。所以在面试的时候给大家的第一个建议不要说自己精通逻辑回归,非常容易被问倒,从而减分。下面总结了一些平常我在作为面试官面试别人和被别人面试的时候,经常遇到的一些问题。2、正式介绍如何凸显你是一个对逻辑回归已经非常转载 2020-08-20 18:05:05 · 768 阅读 · 0 评论 -
文本挖掘预处理之向量化与Hash Trick
目录前言1、文本挖掘预处理之向量化与Hash Trick1.1 词袋模型1.2 词袋模型之向量化1.3 Hash Trick1.4 向量化与Hash Trick小结2、个人感觉2、参考博客前言记得第一次面试腾讯的时候,愣头青一个,当时面试官问我,离散特征怎么进行处理,直接扔给他一个答案,独热编码!然后面试官直接怼,当一个离散特征进行独热编码后的特征维度有一百万一千万怎么办?XGB不能处理这么高...转载 2020-04-27 16:00:27 · 283 阅读 · 0 评论 -
机器学习中非平衡数据的处理 —— smote算法
不平衡数据的背景知识在实际应用中,分类问题中类别的因变量可能存在严重的偏倚,即类别之间的比例严重失调,如欺诈问题,欺诈类观测在样本集中毕竟占少数;客户流失问题中,忠实的客户往往也是占很少一部分:在某营销活动中,真正参与活动的客户也同样只是少部分。如果数据存在严重的不平衡,预测得出的结论往往是有偏的,即分类结果会偏向于较多观测的类。对于这种问题该如何处理呢?最简单的办法就是构造1:1的数据,要...原创 2020-04-21 23:56:12 · 2619 阅读 · 0 评论 -
机器学习——贝叶斯分类器
1、贝叶斯决策论贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。假设有N种可能的类别标记,即γ={c1,c2,...,cN}\gamma =\{c_1,c_2,...,c_N\}γ={c1,c2,...,cN},λij\lambda_{ij}λij是将一个真实标记为cic_ic...原创 2020-04-08 22:06:29 · 862 阅读 · 0 评论 -
机器学习中回归问题的性能衡量指标
回归问题的典型性能指标是均方根误差(RMSE),它测量的是预测过程中,预测错误的标准偏差(标准偏差是方差的算术平方根,而方差是离均平方差的平均数)。例如,RMSE等于50000就意味着,系统的预测值中约68%落在50000美元之内,约95%落在100000美元之内(一种常见的特征分布是呈钟形态的分布,称为正态分布(也叫高斯分布),“68-95-99.7”的规则是指:大约68%的值落在1σ\sig...原创 2020-02-16 14:38:34 · 1912 阅读 · 0 评论 -
集成学习
集成学习是一大类模型融合策略和方法的统称,其中包含多种集成学习的思想。集成学习分为两类,一类是Boosting,一类是Bagging1、BoostingBoosting方法训练基分类器时采用串行的方式,各个基分类器之间有依赖。它的基本思路是将基分类器层层叠加,每一层在训练的时候,对前一层基分类器分错的样本,给予更高的权重。测试时,根据各层分类器的结果的加权得到最终的结果。Boosting...原创 2020-02-12 22:37:38 · 695 阅读 · 0 评论 -
如何理解协方差矩阵?PCA降维是怎么使用到协方差矩阵的?
1.统计学的基本概念统计学里最基本的概念就是样本的均值、方差、标准差。首先给定一个含有n个样本的集合,下面给出这些概念的公式描述:均值:x‾=∑i=1nxin\overline{x}=\frac{\sum_{i=1}^nx_i}{n}x=n∑i=1nxi标准差:s=∑i=1n(xi−x‾)2n−1s = \sqrt{\frac{\sum_{i=1}^n(x_i-\overline{x...原创 2020-01-07 15:59:22 · 1260 阅读 · 0 评论 -
PCA和线性回归之间的关系如何?
PCA和线性回归是完全不同的两个算法,尽管看上去有一些相似。我们用图来描述一下,用左图表示线性回归,当给定某个输入特征量x时,预测出某变量y的值。在线性回归中,要做的是拟合一条直线...原创 2020-01-07 08:43:56 · 4084 阅读 · 0 评论 -
你在 或者不在 需要逻辑回归来算 | 协和八
你在 或者不在 需要逻辑回归来算 | 协和八——————————————————————————————————————————本文转载于——协和八,链接地址https://mp.weixin.qq.com/s?__biz=MzAxMDA4NjU3OA==&mid=2652553458&idx=1&sn=cd3eafdf82243346642fe57234d64d73&...转载 2019-09-12 20:23:12 · 344 阅读 · 0 评论 -
转载——Regression Tree 回归树
1. 引言AI时代,机器学习算法成为了研究、应用的热点。当前,最火的两类算法莫过于神经网络算法(CNN、RNN、LSTM等)与树形算法(随机森林、GBDT、XGBoost等),树形算法的基础就是决策树。决策树因其易理解、易构建、速度快的特性,被广泛应用于统计学、数据挖掘、机器学习领域。因此,对决策树的学习,是机器学习之路必不可少的一步。根据处理数据类型的不同,决策树又分为两类:分类决策树与回归...转载 2019-10-14 11:10:24 · 347 阅读 · 0 评论 -
逻辑回归、线性回归直观感受
在学习线性回归和逻辑回归的时候,遇到过一些问题:1、为什么线性回归中y是服从正态分布的;2、为什么逻辑回归是用于分类任务的,却叫做回归;3、逻辑回归中的损失函数为什么不能用线性回归中的均方差公式,而是通过极大似然估计进行损失函数的定义。问题一解答(百面机器学习的教学视频和百面机器学习书的知识点解答)最小二乘法公式推导这就是最小二乘法的解法,一步到位,都不用机器学习,直接求解出来。...原创 2019-10-13 22:42:37 · 329 阅读 · 0 评论 -
回归算法 - 线性回归求解 θ(最大似然估计求解)
本文转载于https://www.jianshu.com/p/fbd736a61927,并非原创,如有侵权,请联系我。本文转载于https://www.jianshu.com/p/fbd736a61927,并非原创,如有侵权,请联系我。本文转载于https://www.jianshu.com/p/fbd736a61927,并非原创,如有侵权,请联系我。————————————————————...转载 2019-10-13 18:57:50 · 7747 阅读 · 3 评论 -
线性回归与逻辑回归
1、线性回归为什么不适用于分类问题线性回归是作用于回归问题的,而逻辑回归是作用于分类问题的。线性回归问题在应用于分类问题时,会存在很多问题。例如在吴恩达老师的机器学习课程中引用到的肿瘤判定的二分类例子中:得到的数据的线性回归拟合直线,从这个图中看着效果还是不错的。比如设定阈值为0.5,当拟合直线对于Tumor Size得到的值大于0.5的时候,则判定为Yes,否则预测为No。但如果再添加...原创 2019-07-18 17:23:05 · 604 阅读 · 0 评论 -
机器学习算法——K近邻法
K近邻算法k近邻算法(k-nearest neighbor,k-NN)是一种基本分类与回归方法。k-近邻算法的输入为实例的特征向量,对应于特征空间的点;输出为实例的类别,可以取多类。k-近邻算法假设给定一个训练数据集,其中的实例类别已定。分类时,对新的实例,根据其k个最近邻的训练实例的类别,通过多数表决等方式进行预测。因此k-近邻算法不具有显式的学习过程。k-近邻算法实际上是利用训练数据集对特征...原创 2019-07-02 01:48:53 · 383 阅读 · 0 评论