2020年03月_爱吃鱼的小王同学

原创批量学习和在线学习、参数学习和非参数学习、生成模型和判别模型、线性模型和非线性模型

1

2020-03-30 11:06:08 606

原创 Logistic回归相关知识

1、简单阐述一下LR？虽然逻辑回归能够用于分类，不过其本质还是线性回归。它仅在线性回归的基础上，在特征到结果的映射中加入了一层sigmoid函数（非线性）映射，即先把特征线性求和，然后使用sigmoid函数来预测。逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法，运用梯度下降来求解参数，来达到将数据二分类的目的。逻辑回归：线性回归可以预测连续值，但是不能解决分类问题，我们需要根据预测...

2020-03-30 10:52:42 785

原创机器学习中解决过拟合的方法

123

2020-03-30 10:35:51 786

原创神经网络与卷积神经网络

神经网络对特征通过隐藏层进行升维或降维。sigmoid作为激活函数，会导致梯度消失。使用relu激活函数，使某些神经元失活，有点类似于dropout。未失活的神经元看起来是线性，但是每个样本失活不同，所以整体起来就是非线性的。卷积神经网络1、判断一个图案的特征并不需要太多2、判断一盒图案，可能的特征不一定在同一像素点上3、图案像素点的抽离（1080720——>2020 图片压缩...

2020-03-27 23:43:00 677

原创一个有偏的硬币，抛了100次，出现1次人头，99次字。请用最大似然估计（ML）和最小均方误差（LSE）估计出现人头的概率

2020-03-27 23:21:04 1080

原创 Adaboost算法实例讲解，通俗易懂

Adaboost算法思想：提高那些被前一轮弱分类器错误分类的样本的权值，降低那些被正确分类的样本的权值；采用加权多数表决的方法。具体的，加大分类误差率小的弱分类器的权值，使其在表决中起较大的作用；减小分类误差率大的弱分类器的权值，使其在表决中起较小的作用。Adaboost算法流程以简单二分类为例：...

2020-03-27 15:04:51 542

原创 L1正则和L2正则

1

2020-03-26 23:50:40 1304

原创解决Hash冲突四种方法

1.开放定址法（线性探测再散列，二次探测再散列，伪随机探测再散列）2.再哈希法3.链地址法(Java hashmap就是这么做的)4.建立一个公共溢出区

2020-03-25 23:43:26 164

原创偏差和方差

当我们的模型表现不佳时，通常是出现两种问题，一种是高偏差问题，另一种是高方差问题。识别它们有助于选择正确的优化方式，所以我们先来看下偏差与方差的意义。偏差: 描述模型输出结果的期望与样本真实结果的差距。方差: 描述模型对于给定值的输出稳定性。就像打靶一样，偏差描述了我们的射击总体是否偏离了我们的目标，而方差描述了射击准不准。接下来让我们通过各种情况下训练集和交叉验证...

2020-03-25 20:47:47 142

原创机器学习问题零散整理（持续更新...）

1、为什么要做数据归一化，在梯度下降时有什么好处？规避不同特征的数值大少带来的差异影响。不做归一化的话，每一个特征所对应的的数据规模是不一样的。那么在求导数的时候，求得的很可能会导数比较大（比较小），最终即使乘以学习率后的步长比较大，导致整体不收敛。或者要进行多次迭代2、梯度下降法和随机梯度下降法的区别？梯度下降时，每个样本都会参与梯度的计算，那么在大样本情况下，提低下降的计算量将非常大；...

2020-03-25 17:10:51 113

原创集成学习相关知识点整理

牛客算法面试笔记-集成学习机器学习面试——集成学习篇

2020-03-24 23:02:40 157

原创 KMeans算法知识点整理（持续更新...）

主要的KMeans算法的原理和应用，在学习典过程中...

2020-03-24 22:47:53 3005

原创 SVM知识点整理（持续更新...）

1. SVM的原理是什么？SVM是一种二类分类模型。它的基本模型是在特征空间中寻找间隔最大化的分离超平面的线性分类器。（间隔最大是它有别于感知机）（1）当训练样本线性可分时，通过硬间隔最大化，学习一个线性分类器，即线性可分支持向量机；（2）当训练数据近似线性可分时，引入松弛变量，通过软间隔最大化，学习一个线性分类器，即线性支持向量机；（3）当训练数据线性不可分时，通过使用核技巧及软间隔最大...

2020-03-24 21:41:06 726

原创主成分分析（PCA）原理通俗解释，看完必懂

PCA的概念PCA(Principal Component Analysis)，即主成分分析方法，是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上，这k维是全新的正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征。PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴，新的坐标轴的选择与数据本身是密切相关的。其中，第一个新坐标轴选择是原始数据中方差...

2020-03-24 17:21:00 21640 1

原创 Bagging，Boosting二者之间的区别

bagging（bootstrap aggregating）是并行式集成学习方法最显著的代表。利用Bootstraping（自主采样法（有放回））的方法。对分类问题，将k个模型采用投票的方式得到分类结果；对回归问题，计算上述模型的均值作为最后的结果。Boosting是一簇弱分类器提升为强学习器的算法，先从初始训练集训练处一个基学器，再根据基学习器的表现对训练样本分布进行调整。基于调整后的样本分布...

2020-03-22 20:36:56 256

原创交叉熵的物理意义及简单公式推导

交叉熵（Cross Entropy）是Shannon信息论中一个重要概念，主要用于度量两个概率分布间的差异性信息。若P(x)是数据的真实概率分布，q(x)是由数据计算得到的概率分布。机器学习的目的就是希望q(x)尽可能地逼近甚至等于P(x)。对q(x)的优化就等效于求交叉熵的最小值。另外，对交叉熵求最小值，也等效于求最大似然估计...

2020-03-22 17:20:43 3184 1

原创决策树相关知识点整理（持续更新...）

机器学习算法——决策树相关面试问题及参考答案。题目列表：1、写一下信息增益、信息增益率、基尼系数三个公式？2、C4.5（信息增益率）比较ID3（信息增益）的优点？3、决策树如何防止过拟合？4、决策树相比其他算法有什么优势？写一下信息增益、信息增益率、基尼系数三个公式？（参考西瓜书）1）信息熵的定义：2）信息增益公式3）信息增益率公式4）基尼指数公式其中，基尼值定义为...

2020-03-22 15:48:08 283

转载有 1000 个一模一样的瓶子，其中有 999 瓶是普通的水，有一瓶是毒药。任何喝下毒药的生物都会在一星期之后死亡。现在，你只有 10 只小白鼠和一星期的时间，如何检验出哪个瓶子里有毒药？

根据2^10=1024，所以10个老鼠可以确定1000个瓶子具体哪个瓶子有毒。具体实现跟3个老鼠确定8个瓶子原理一样。000=0001=1010=2011=3100=4101=5110=6111=7一位表示一个老鼠，0-7表示8个瓶子。也就是分别将1、3、5、7号瓶子的药混起来给老鼠1吃，2、3、6、7号瓶子的药混起来给老鼠2吃，4、5、6、7号瓶子的药混起来给老鼠3吃，哪个老...

2020-03-21 10:49:07 2550

原创精确率、召回率、F1 值、ROC、AUC 各自的优缺点是什么？

13212

2020-03-21 10:06:35 2833

原创基本计算器

实现一个基本的计算器来计算一个简单的字符串表达式的值。字符串表达式可以包含左括号 ( ，右括号 )，加号 + ，减号 -，非负整数和空格。示例：输入: “1 + 1”输出: 2解法详谈：是这里使用的是双栈（操作数栈、操作符栈），对操作数和操作符进行压栈#include <stdio.h>#include <string.h>#include &lt...

2020-03-20 23:34:17 99

原创四种最常问的编程算法面试问题

在任何时候，当我们声明我们知道某个算法时，这意味着我们应该能能够理解这个算法上是如何工作的（包括时间/空间复杂性），并且你能够用一个例子来展示你对这个算法的理解，而且你能够用你选择的语言来实现它。下面分享一些编程面试必须知道的算法：树的遍历算法这些算法允许你按一种结构化的顺序访问树中的每个节点。它们主要是为二叉树设计的，但是你可以调整这些概念来访问任何树中的所有节点。学习这些算法还将帮助你...

2020-03-18 15:41:41 266

原创百道经典算法题——1～n整数中1出现的次数

求前n个数中包含1的个数输入一个整数 n ，求1～n这n个整数的十进制表示中1出现的次数。例如，输入12，1～12这些整数中包含1 的数字有1、10、11和12，1一共出现了5次。示例：输入：n = 12输出：5解法详谈：本题在求解时有点动态规划的思想，即利用小规模的问题去迭代求解大规模的问题，我们首先来看：1、0-9中1的个数是1；2、0-99中1的个数是9*1+10+1 ...

2020-03-17 23:34:34 339 3

原创百道经典算法题——斐波那锲数列

求斐波那契数列第N项写一个函数，输入 n ，求斐波那契（Fibonacci）数列的第 n 项。斐波那契数列的定义如下：F(0) = 0, F(1) = 1 F(N) = F(N - 1) + F(N - 2), 其中 N > 1斐波那契数列由 0 和 1 开始，之后的斐波那契数就是由之前的两数相加而得出。答案需要取模 1e9+7（1000000007），如计算初始结果为：10...

2020-03-15 11:52:15 688

原创百道经典算法题——数值的整数次方

计算X的n次方（摒弃简单for循环）实现函数double Power(double base, int exponent)，求base的exponent次方。不使用库函数，同时不需要考虑大数问题。示例 1:输入: 2.00000, 10输出: 1024.00000示例2：输入: 2.00000, -2输出: 0.25000解释: 2-2 = 1/22 = 1/4 = 0.25...

2020-03-12 15:27:17 267

原创百道经典算法题——二叉树的直径C实现

求二叉树的直径给定一棵二叉树，你需要计算它的直径长度。一棵二叉树的直径长度是任意两个结点路径长度中的最大值。这条路径可能穿过根结点示例 :给定二叉树返回 3, 它的长度是路径 [4,2,1,3] 或者 [5,2,1,3]。注意：两结点之间的路径长度是以它们之间边的数目表示。解法详谈：求解本题时，要注意何为直径，其实就是指的是root的直径 = root左子树高度 + root右子树...

2020-03-10 15:58:26 378

原创百道经典算法题——丑数

寻找第N个丑数我们把只包含因子 2、3 和 5 的数称作丑数（Ugly Number）。例如6、8都是丑数，但14不是，因为它包含因子7。习惯上我们把1当做是第一个丑数。求按从小到大的顺序的第N个丑数。示例：输入: n = 10输出: 12解释: 1, 2, 3, 4, 5, 6, 8, 9, 10, 12 是前 10 个丑数。说明： 1、1 是丑数。 2、n 不超...

2020-03-09 11:35:29 690 2

原创百道经典算法题——水域大小

计算水域中池塘大小并排序打印你有一个用于表示一片土地的整数矩阵land，该矩阵中每个点的值代表对应地点的海拔高度。若值为0则表示水域。由垂直、水平或对角连接的水域为池塘。池塘的大小是指相连接的水域的个数。编写一个方法来计算矩阵中所有池塘的大小，返回值需要从小到大排序。示例：输入：[ [0,2,1,0], [0,1,0,1], [1,1,0,1], [0,1,0,1]]输...

2020-03-06 17:36:13 2007

原创程序员必备——C 库函数 memset()

C 库函数 **void memset(void str, int c, size_t n) 复制字符 c（一个无符号字符）到参数 str 所指向的字符串的前 n 个字符。下面是 memset() 函数的声明。void *memset(void *str, int c, size_t n)下面的代码演示了 memset() 函数的用法。#include <stdio.h>#...

2020-03-06 17:18:37 437

原创程序员必备——C二维数组动态分配，参数传递

c语言书中，很少谈到如何用malloc动态初始化一个二维数组。但是在二维数组作为参数进行传递时，会常用到。下面代码中，动态初始化二维数组并作为参数进行传递，注意的是动态申请内存后后要记得释放，养成良好习惯。#include<stdio.h>#include <stdlib.h> int** test(int m, int n) { int** a=(int**)...

2020-03-06 17:00:05 343

原创百道经典算法题——数组中的重复的数字

（你认为自己一眼看透了吗？）找出数组中重复的数字。在一个长度为 n 的数组 nums 里的所有数字都在 0～n-1 的范围内。数组中某些数字是重复的，但不知道有几个数字重复了，也不知道每个数字重复了几次。请找出数组中任意一个重复的数字。示例：输入：[2, 3, 1, 0, 2, 5, 3]输出：2 或 3 限制：2 <= n <= 100000解法详谈：题目看似简...

2020-03-05 10:09:12 197

qq_24263553的博客