机器学习
文章平均质量分 93
月落乌啼silence
不积跬步,无以至千里
展开
-
XGBoost算法介绍
XGBoost算法介绍一、简介二、基本原理三、目标函数新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入一、简介 XGBoost(eXtreme Gradient Boosting)又叫极度梯度提升树,是boosting原创 2022-04-05 16:42:04 · 57468 阅读 · 2 评论 -
Pandas常用方法总结
先开个头,明天接着写。一、数据的读取与导出1、数据读取df = pd.read_csv('/home/greg/桌面/uk_rain_2014.csv', sep=',',header=0)读取数据有三个参数,第一个是文件名,第二个是分隔符,也就是两列之间的分隔符,默认是',',第三个参数也就是文件每一列的命名,如果没有列名可设置为header=None从限定分隔符文...原创 2018-11-11 22:33:28 · 1640 阅读 · 0 评论 -
机器学习实战--K近邻法
这两天再看K近邻法,K近邻法是基本的分类与回归算法.在这里总结一下,从一下几个方面. 1KNN的原理 2距离度量 3 K值的选取 4 分类规则以及Kd树一KNN的原理 以分类为例,我们有训练样本,即训练集,每个一样本都是带有label的,即我们知道每一个样本与类别的对应关系.测试样本没有label,我们需要对其进行预测,得出它的label.通常原创 2018-01-14 14:23:43 · 2025 阅读 · 0 评论 -
极大似然估计
在学统计学习方法的时候,里面经常提到最大似然函数,但是我一直不知道他代表什么意思,或者说每次要求参数的时候,都是先根据已有的分布连乘,然后求参数就行了。这种做法让我很困扰,今天就百度了一下, 看到了各路大神的解释,心中有些谱了,就在这里简单记录一下,尽量不涉及公式。 极大似然估计就是利用已有样本的信息,反推最有可能导致这种情况出现的模型参数。即你手头有一堆样本,这些样本的值都已经出现,也就是找原创 2017-11-27 23:36:56 · 2836 阅读 · 0 评论 -
《机器学习实战》--逻辑斯蒂回归<二>
梯度下降可视化前一篇看完了理论,我们来实战一下,首先看一下梯度下降的效果 先看代码# 目标函数def func(x): return np.square(x)# 目标函数一阶导数def dfunc(x): return 2 * xdef GD_momentum(x_start, df, epochs, lr, momentum): xs = np.zeros(epoch原创 2017-12-02 22:41:33 · 2028 阅读 · 0 评论 -
《机器学习实战》-- 逻辑斯蒂回归<一>
引言 回归我们知道有线性回归,线性回归模型能够无限的逼近我们的结果。以(xi,yi)(x_{i}, y_{i})为例,通过线性回归 f(x)=wTx+bf(x)=w^{T}x+b表达式,就可以得到我们对yiy_{i}的估计值。回归到分类 如何从线性回归转换到分类呢?由于线性回归得到的是连续值,z=wTx+bz=w^Tx+b,zz的范围[−∞,∞][-\infty, \infty],是这样的一个连原创 2017-12-02 21:47:56 · 3096 阅读 · 3 评论 -
<机器学习实战>--朴素贝叶斯实战(二)
一 前言 上一篇文章介绍了朴素贝叶斯的基本原理, 现在就来实践一下吧, 阅读了部分<机器学习实战>上的代码, 自己也敲了一遍, 做了一下验证, 现在就在这里分享一下. 环境: Ubuntu 16.04 Python 3.5.2 二 使用朴素贝叶斯进行文档分类2.1 准备数据: 从文本中构建词向量 加载数据'''加载训练数据, postingList是所有的训练集, 每一原创 2017-10-15 15:50:19 · 2471 阅读 · 0 评论 -
<机器学习实战>--朴素贝叶斯(一)
一 简介 朴素贝叶斯是基于概率论的一种分类方法,或者说是基于贝叶斯定理与特征条件独立假设的分类方法.该方法是用于分类问题,现实生活中用于病人的诊断,不当言论的分类等.由于其实现方法简单,计算效率高,所以应用还是比较广泛的. 二 概率模型 朴素贝叶斯就是一个概率模型, 再分类的过程中, 我们会计算这个样本属于每一个类别的概率, 然后求出其中的最大值, 最大值所对应的概率就是我们所确定的类.原创 2017-10-14 20:06:05 · 2060 阅读 · 0 评论 -
Spark 线性回归
回归是应用于预测输出变量为连续变化的场景,就像广为流传的房价与面积的关系,如果仅仅是一个因变量和一个自变量,那叫一元线性回归,如果是多个自变量一个因变量就叫多元线性回归。以下图为例: 图片来自http://blog.csdn.net/sunbow0/article/details/45539255原创 2017-02-11 10:06:14 · 1789 阅读 · 0 评论 -
浅谈SVM
一、了解SVMSVM是一机器学习中的一种分类方法,是一种二分类方法。它的目的便是在求得一组权值w1,w2,.....wn,b,使得两个分类的间隔达到最大,也就是能很好地将两个类别分开。1、SVM的来源此处使用Logistic Regression做为一个因子,来引入SVM逻辑回归也是一个分类模型,它采用的映射函数为Sigmod函数,也就是把属于负无穷到正无穷的自变量映射到(0,1)原创 2016-11-10 15:51:48 · 1231 阅读 · 2 评论 -
spark 决策树浅谈
一、决策树是一种分类算法,类似于我们写程序过程中的if-else判断,但是在判断的过程中又加入了一些信息论的熵的概念以及基尼系数的概念。spark中有决策树的分类算法,又有决策树的回归算法。我用到了分类算法,就暂且分享一下我对决策树分类算法的理解。二、决策树的基本模型原创 2016-11-13 11:06:36 · 2932 阅读 · 0 评论