机器学习
水月清
这个作者很懒,什么都没留下…
展开
-
为什么能用g(x)来预测可能性
逻辑回归的输入是一个线性组合,与线性回归一样,但输出变成了概率。而且逻辑回归用于预测两类问题,类似一个伯努利试验。假设在一个伯努利试验中,成功的概率是p,失败的概率是1−p,我们设逻辑回归的输出是成功的概率p,那么需要一个函数将逻辑回归的输入(一个线性组合)与p联系起来。下面介绍这个函数,它的名字叫Logit.我们定义: Odds=p1−p(1)上式很直观,表示成功的概率是失败概率的多...转载 2017-11-13 13:22:56 · 347 阅读 · 0 评论 -
决策树(二)
也可以说,信息量度量的是一个具体事件发生了所带来的信息,而熵则是在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。即:1.2 条件熵(可以理解为在给定某种条件下弄清这件事所需要的信息量,其中给定某种条件后给决策树补充了信息量) 关于条件熵的两篇博客:文章1、文章2、文章3 对于条件熵的具体理解:...转载 2018-10-22 11:52:51 · 145 阅读 · 0 评论 -
决策树实例
import numpy as npfrom sklearn.tree import DecisionTreeClassifierfrom sklearn.metrics import classification_reportdef load_data(): from sklearn.datasets import load_iris#鸢尾花数据集 from skle...转载 2018-10-22 23:01:26 · 2323 阅读 · 0 评论 -
集成算法(ensemble learning)--竞赛和论文神器
就拿决策树来说,比如如果一颗决策树效果不行,就用多颗决策树,这样就构成随机森林。目的:让机器学习效果更好,单个不行,就用多个一起。集成算法一、bagging算法:并行训练多个M模型(如决策树)取平均或者其他方式汇总,如果就拿决策树来说,训练M颗决策树取预测数据,就会有M个结果,把这M个结果取平均来做最后的结果。典型:“随机森林”,并行训练多个树,各个独立,各个树之间有些许差别,如预...原创 2018-10-25 21:58:49 · 1088 阅读 · 0 评论 -
机器学习之泰坦尼克号遇难预测
思路:一、数据预处理1、数据读取2、可以用data.head()来显示数据的前几行,date.info()来显示数据的信息3、缺失值的处理4、挑选特征5、分离特征和标签二、train1、选取模型(可以先简单后复杂,如果两个模型效果差不多,简单的节约时间)2、超参数的选择(交叉验证),可以用网格搜索(GridSearchCV)更快3、确定模型并预测 ...原创 2018-10-25 22:19:57 · 276 阅读 · 0 评论 -
决策树(一)
1、举例:关于什么是决策树(decision tree),我们先来看这么一个例子。假如我错过了看世界杯,赛后我问一个知道比赛结果的人“哪支球队是冠军”?他不愿意直接告诉我,而让我猜,并且每猜一次,他要收一元钱才肯告诉我是否猜对了,那么我要掏多少钱才能知道谁是冠军呢?我可以把球队编上号,从1到16,然后提问:“冠军球队在1-8号中吗?”,假如他告诉我猜对了,我会接着问:“冠军在1-4号中吗?”,...转载 2018-10-21 23:11:48 · 183 阅读 · 0 评论 -
决策树(三)剪枝
可以这样理解,剪枝后剩下的计算损失函数比剪枝前更小。 来源:https://blog.csdn.net/bird_fly_i/article/details/72824639?utm_source=blogxgwz2https://blog.csdn.net/The_lastest/article/details/78975439...转载 2018-10-23 21:42:31 · 139 阅读 · 0 评论 -
贝叶斯算法
贝叶斯要解决的问题:1、正向概率:假设袋子里有N个白球,M个黑球,伸手摸一把,摸出黑球的概率是多大。2、逆向概率:如果事先不知道袋子里黑白球的比例,而是闭着眼摸出一个或好几个球,观察这些取出来的球的颜色之后,那么我们可以就此对袋子里的黑白球的比例作出什么样的推测。为什么用贝叶斯?就拿黑白球来说,因为自然界中可能白球和黑球的比例太多了,我们根本无法知道有多少个白球和黑球,所以具体比例...原创 2018-11-05 11:24:25 · 24508 阅读 · 1 评论 -
机器学习之各种优化方法大全(梯度下降,Adam等)
这里原创 2018-11-30 16:29:47 · 178 阅读 · 1 评论 -
机器学习之激活函数relu
来源方法是单侧抑制,更好的模拟了生物神经元原创 2018-11-30 16:36:30 · 615 阅读 · 0 评论 -
神经网络中epoch, iteration, batchsize相关理解和说明
batchsize:中文翻译为批大小(批尺寸)。简单点说,批量大小将决定我们一次训练的样本数目。batch_size将影响到模型的优化程度和速度。为什么需要有 Batch_Size :batchsize 的正确选择是为了在内存效率和内存容量之间寻找最佳平衡。 Batch_Size的取值:全批次(蓝色)如果数据集比较小我们就采用全数据集。全数据集确定的方向能够更好地代...转载 2018-12-12 21:28:41 · 880 阅读 · 0 评论 -
下采样(处理数据不平衡问题)
import pandas as pdimport matplotlib.pyplot as pltimport numpy as npfrom sklearn.preprocessing import StandardScaler#去均值,方差归一化,类似于特征缩放from sklearn.model_selection import train_test_split#分为训练集和测试...转载 2018-10-17 11:01:44 · 3612 阅读 · 2 评论 -
关于sklearn中的网格搜索(调参)
官方来源:http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html#sklearn.model_selection.GridSearchCVhttp://scikit-learn.org/stable/modules/grid_search.html#grid-searc...原创 2018-10-17 10:43:46 · 2913 阅读 · 0 评论 -
逻辑回归
要说逻辑回归,我们得追溯到线性回归,想必大家对线性回归都有一定的了解,即对于多维空间中存在的样本点,我们用特征的线性组合去拟合空间中点的分布和轨迹。如下图所示: 线性回归能对连续值结果进行预测,而现实生活中常见的另外一类问题是,分类问题。最简单的情况是是与否的二分类问题。比如说医生需要判断病人是否生病,银行要判断一个人的信用程度是否达到可以给他发信用卡的程度,邮件收件箱要自动对邮件...转载 2018-01-16 08:47:47 · 217 阅读 · 0 评论 -
机器学习笔记
吴恩达机器学习笔记转载 2018-07-20 18:05:11 · 168 阅读 · 0 评论 -
线性回归之波士顿房价预测
from sklearn.datasets import load_bostonimport numpy as npimport matplotlib.pyplot as pltdef feature_scalling(X): mean = X.mean(axis=0) std = X.std(axis=0) return (X - mean) / std...转载 2018-10-12 17:30:03 · 1963 阅读 · 0 评论 -
逻辑回归之癌症预测
import numpy as npfrom sklearn.datasets import load_breast_cancerdef feature_scalling(X): mean = X.mean(axis=0) std = X.std(axis=0) return (X - mean) / stddef load_data(shuffled=Fa...转载 2018-10-12 17:31:48 · 658 阅读 · 2 评论 -
逻辑回归之考试是否录取
一、其中LogisticRegression是自己写的模块,该模块是波士顿房价预测里的代码 波士顿房价预测二、完全代码import matplotlib.pyplot as pltimport pandas as pdimport numpy as npfrom LogisticRegression import gradDescent,cost_function,accura...转载 2018-10-12 23:50:30 · 987 阅读 · 0 评论 -
机器学习之特征缩放
一般用第三种:来源相关代码:波士顿房价预测:代码来源:代码#宗旨,先前项传播,然后进行梯度下降算法,然后反向传播,通过反向传播用来更新参数import numpy as npfrom sklearn.datasets import load_breast_cancerimport matplotlib.pyplot as pltdef feature_scallin...转载 2018-10-08 10:08:56 · 437 阅读 · 0 评论 -
过采样(处理数据不平衡问题)
import pandas as pdimport matplotlib.pyplot as pltimport numpy as npfrom sklearn.preprocessing import StandardScalerfrom sklearn.model_selection import train_test_splitfrom sklearn.model_selecti...转载 2018-10-18 15:25:38 · 29943 阅读 · 1 评论 -
机器学习之癌症预测
相关代码:来源:代码来源#宗旨,先前项传播,然后进行梯度下降算法,然后反向传播,通过反向传播用来更新参数import numpy as npfrom sklearn.datasets import load_breast_cancerdef feature_scalling(X): mean = X.mean(axis=0) std = X.std(axis=0...转载 2018-10-08 16:48:21 · 2554 阅读 · 0 评论 -
机器学习软件准备
1、Python3.5 2、anaconda3、pycharm(社区版)原创 2018-10-18 16:17:26 · 225 阅读 · 0 评论 -
机器学习之模型选择(K折交叉验证,超参数的选择)
来源:https://www.cnblogs.com/jerrylead/archive/2011/03/27/1996799.html 对于解决同一个问题,如怎么选择模型去拟合线性回归中只有一个特征时房价预测问题,如可能有不同的模型去解决,如:1、d = 1,h(θ) = θ0+θ1x2、d = 2,h(θ) = θ0+θ1x+θ2x^23、d = 3,h(θ) = θ0...原创 2018-10-15 15:24:12 · 4158 阅读 · 0 评论 -
均方误差(MSE)和均方根误差(RMSE)和平均绝对误差(MAE)
MSE: Mean Squared Error均方误差是指参数估计值与参数真值之差平方的期望值;MSE可以评价数据的变化程度,MSE的值越小,说明预测模型描述实验数据具有更好的精确度。RMSE均方误差:均方根误差是均方误差的算术平方根MAE :Mean Absolute Error平均绝对误差是绝对误差的平均值平均绝对误差能更好地反映预测...转载 2019-03-19 00:14:22 · 3401 阅读 · 1 评论