AI
文章平均质量分 65
moro_zhang
这个作者很懒,什么都没留下…
展开
-
机器学习入门篇-线性回归-最小二乘法(正规方程)
概念:线性回归是为了找到一条合适的线或者面来拟合数据 引导过程:假设预测一个人能从银行贷多少款?我们要考虑他的年龄、工作、有无房产等等,这是,每个考虑的因素(特征值)用x代表,考虑的因素的重要性的高低用w表示,则这个人的贷款额度可以的用以下公式表示表达: (PS:w叫权重,对结果有决定性的影响,是计算主要优化的对象。b叫偏置,对结果影响不大,以后计算中经常忽略) (2)对于上面的公式简化表达...原创 2018-12-04 07:35:09 · 1815 阅读 · 0 评论 -
机器学习入门篇-逻辑回归
概念:逻辑回归看到回归两字,有的人以为是要回归成一个值,但是逻辑回归是处理二分类的经典算法,逻辑回归的边界可以是非线性的。常用在是否为垃圾邮件、是否患病、金融诈骗、是否为虚假账号、广告点击率等问题上,基本的思想与线性回归类似,但损失函数的定义不一样。为何称之为是经典二分类算法,是因为比较其他复杂的算法(神经网络等),它更简单高效,这也是机器学习处理问题的核心思想:简单高效。所以能用简单的先用简答...原创 2018-12-04 17:33:40 · 196 阅读 · 0 评论 -
机器学习-K近邻(KNN)
K近邻 概念 如果一个样本在特征空间中的K个最相似的样本中的大多数属于某一个类别,则该样本也属于这个类别。1968年由Cover和Hart提出的一种分类算法,也就是说,相似的样本,特征值都应该相似 核心 距离的计算,KNN使用欧式距离 数据预处理 需要做数据的标准化 案例 预测用户签到位置,数据集下载地址:https://www.kaggle.com/c/facebook-v-predic...原创 2019-01-31 22:36:06 · 202 阅读 · 0 评论 -
朴素贝叶斯预测文章类型
概念 朴素贝叶斯是基于贝叶斯定理及特征条件独立假设的分类方法。我们在实际问题中需要得到的后验概率,可以通过先验概率和数据一起综合得到。优点是:实现方法简单,不受数据缺失值的影响,没有超参数,但缺点是:对训练数据集很敏感,而且条件独立的假设很难满足。 比较容易理解的公式表达:p(类别|特征) = p(特征|类别)p(类别)/p(特征) 案例 from sklearn.datasets import ...原创 2019-01-31 23:31:20 · 388 阅读 · 0 评论 -
决策树及随机森林(集成学习方法)预测泰坦尼克号生死
决策树概念 决策树是一种基本的分类与回归的方法,模型呈现属性结构,通常包括:特征选择,决策树的生成和决策树的修剪3个步骤。树可以看做是if-then的集合。 重点是决策树特征选择,特征的选择准则是信息增益或者信息增益比 信息增益的基本概念:表示得知特征X的信息而使得类Y的信息的不确定性减少的程度,通常用熵来表示随机变量不确定的程度。 决策树有ID3(信息熵) C4.5(信息增益) CART(基尼...原创 2019-02-01 22:41:04 · 1184 阅读 · 0 评论 -
统计学习方法总结
机器学习三要素 1.模型:基于统计学习的机器学习首先要考虑的是问题是学习什么样的模型,在监督性学习的过程中,模型就是索要学习的条件概率分布或者决策函数 2.策略:有了模型的假设空间,接下来要考虑通过设么样的准则学习或选择最优的模型,这里就要引入损失函数与分显函数的概念。 3.损失函数与风险函数:损失函数是度量模型一次学习的好坏,也就是说模型的预测值f(x)与真实值y的差距,通常用L(Y,f(x)...原创 2019-01-29 22:41:26 · 95 阅读 · 0 评论 -
最小二乘法&梯度下降预测博士顿饭昂家
from sklearn.datasets import load_boston from sklearn.linear_model import LinearRegression,SGDRegressor from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardS...原创 2019-02-09 08:42:20 · 184 阅读 · 0 评论