sun_shengyun
码龄16年
关注
提问 私信
  • 博客:418,304
    社区:327
    418,631
    总访问量
  • 8
    原创
  • 2,190,817
    排名
  • 119
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2009-03-15
博客简介:

sun_shengyun的专栏

查看详细资料
个人成就
  • 获得141次点赞
  • 内容获得18次评论
  • 获得584次收藏
创作历程
  • 12篇
    2017年
  • 12篇
    2016年
  • 11篇
    2013年
成就勋章
TA的专栏
  • java
    9篇
  • C/C++
    1篇
  • Hbase
    2篇
  • python
    9篇
  • sklearn
    6篇
  • 数据挖掘
    8篇
  • jupyter
    1篇
  • 机器学习
    18篇
  • 调参
    2篇
  • SVM
    1篇
  • RBF
    1篇
  • 支持向量
    1篇
  • 高斯核函数
    1篇
创作活动更多

仓颉编程语言体验有奖征文

仓颉编程语言官网已上线,提供版本下载、在线运行、文档体验等功能。为鼓励更多开发者探索仓颉编程语言,现诚邀各位开发者通过官网在线体验/下载使用,参与仓颉体验有奖征文活动。

368人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

决策树算法原理(上)

此文参考了http://www.cnblogs.com/pinard/p/6050306.html 以及周志华老师的《机器学习》决策树算法在机器学习中算是很经典的一个算法系列了。它既可以作为分类算法,也可以作为回归算法,同时也特别适合集成学习比如随机森林。本文就对决策树算法原理做一个总结,上篇对ID3, C4.5的算法思想做了总结,下篇重点对CART算法做一个详细的介绍。选择CART做
转载
发布博客 2017.02.27 ·
2933 阅读 ·
1 点赞 ·
0 评论 ·
5 收藏

SVM支持向量机高斯核调参小结

转自http://www.cnblogs.com/pinard/p/6117515.html 在支持向量机(以下简称SVM)的核函数中,高斯核(以下简称RBF)是最常用的,从理论上讲, RBF一定不比线性核函数差,但是在实际应用中,却面临着几个重要的超参数的调优问题。如果调的不好,可能比线性核函数还要差。所以我们实际应用中,能用线性核函数得到较好效果的都会选择线性核函数。如果线性核不好,我
转载
发布博客 2017.02.18 ·
29573 阅读 ·
15 点赞 ·
3 评论 ·
78 收藏

scikit-learn SVM支持向量机算法库使用小结

之前通过一个系列对支持向量机(以下简称SVM)算法的原理做了一个总结,本文从实践的角度对scikit-learn SVM算法库的使用做一个小结。scikit-learn SVM算法库封装了libsvm 和 liblinear 的实现,仅仅重写了算法了接口部分。1. scikit-learn SVM算法库使用概述    scikit-learn中SVM的算法库分为两类,一类是分类的算法库,包
转载
发布博客 2017.02.18 ·
1836 阅读 ·
1 点赞 ·
0 评论 ·
6 收藏

SVM支持向量机原理(四)SMO算法原理

转自http://www.cnblogs.com/pinard/p/6111471.html在SVM的前三篇里,我们优化的目标函数最终都是一个关于α α向量的函数。而怎么极小化这个函数,求出对应的α α向量,进而求出分离超平面我们没有讲。本篇就对优化这个关于α α向量的函数的SMO算法做一个总结。1. 回顾SVM优化目标函数    我们首先回顾下我们的优化目标函数:mi
转载
发布博客 2017.02.18 ·
988 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

SVM支持向量机原理(三)线性不可分支持向量机与核函数

转自http://www.cnblogs.com/pinard/p/6103615.html在前面两篇我们讲到了线性可分SVM的硬间隔最大化和软间隔最大化的算法,它们对线性可分的数据有很好的处理,但是对完全线性不可分的数据没有办法。本文我们就来探讨SVM如何处理线性不可分的数据,重点讲述核函数在SVM中处理线性不可分数据的作用。1. 回顾多项式回归    在线性回归原理小结中,我们讲到
转载
发布博客 2017.02.18 ·
2001 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

SVM支持向量机原理(二) 线性支持向量机的软间隔最大化模型

在支持向量机原理(一) 线性支持向量机中,我们对线性可分SVM的模型和损失函数优化做了总结。最后我们提到了有时候不能线性可分的原因是线性数据集里面多了少量的异常点,由于这些异常点导致了数据集不能线性可分,本篇就对线性支持向量机如何处理这些异常点的原理方法做一个总结。1. 线性分类SVM面临的问题    有时候本来数据的确是可分的,也就是说可以用 线性分类SVM的学习方法来求解,但是却因为混
转载
发布博客 2017.02.18 ·
2702 阅读 ·
1 点赞 ·
0 评论 ·
5 收藏

SVM支持向量机原理(一) 线性支持向量机

此篇文章并非完全原创,参考了下篇博客,如果大家觉得稳重的1、2、3部分不好理解,可以看下图中我的手写版。http://www.cnblogs.com/pinard/p/6097604.html支持向量机(Support Vecor Machine,以下简称SVM)虽然诞生只有短短的二十多年,但是自一诞生便由于它良好的分类性能席卷了机器学习领域,并牢牢压制了神经网络领域好多年。如
原创
发布博客 2017.02.18 ·
3875 阅读 ·
2 点赞 ·
0 评论 ·
7 收藏

【集成学习】原理小结

原文:http://www.cnblogs.com/pinard/p/6131423.html集成学习(ensemble learning)可以说是现在非常火爆的机器学习方法了。它本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。也就是我们常说的“博采众长”。集成学习可以用于分类问题集成,回归问题集成,特征选取集成,异常点检测集成等等,可以说所有的机器学习领域
转载
发布博客 2017.02.08 ·
783 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【集成学习】scikit-learn随机森林调参小结

原文:http://www.cnblogs.com/pinard/p/6160412.html在Bagging与随机森林算法原理小结中,我们对随机森林(Random Forest, 以下简称RF)的原理做了总结。本文就从实践的角度对RF做一个总结。重点讲述scikit-learn中RF的调参注意事项,以及和GBDT调参的异同点。1. scikit-learn随机森林类库概述
转载
发布博客 2017.01.19 ·
26530 阅读 ·
12 点赞 ·
1 评论 ·
81 收藏

【集成学习】Bagging与随机森林算法原理小结

原文地址:http://www.cnblogs.com/pinard/p/6156009.html在集成学习原理小结中,我们讲到了集成学习有两个流派,一个是boosting派系,它的特点是各个弱学习器之间有依赖关系。另一种是bagging流派,它的特点是各个弱学习器之间没有依赖关系,可以并行拟合。本文就对集成学习中Bagging与随机森林算法做一个总结。    随机森林
转载
发布博客 2017.01.19 ·
6491 阅读 ·
0 点赞 ·
0 评论 ·
14 收藏

【集成学习】scikit-learn Adaboost类库使用小结

转自http://www.cnblogs.com/pinard/p/6136914.html在集成学习之Adaboost算法原理小结中,我们对Adaboost的算法原理做了一个总结。这里我们就从实用的角度对scikit-learn中Adaboost类库的使用做一个小结,重点对调参的注意事项做一个总结。1. Adaboost类库概述    scikit-learn
转载
发布博客 2017.01.09 ·
16162 阅读 ·
4 点赞 ·
3 评论 ·
29 收藏

精确率(准确率、查准率、precision)、召回率(查全率、recall)、RoC曲线、AUC面积、PR曲线

1. TP, FP, TN, FNTrue Positives,TP:预测为正样本,实际也为正样本的特征数False Positives,FP:预测为正样本,实际为负样本的特征数True Negatives,TN:预测为负样本,实际也为负样本的特征数False Negatives,FN:预测为负样本,实际为正样本的特征真实情况预测结果
原创
发布博客 2017.01.03 ·
18175 阅读 ·
2 点赞 ·
0 评论 ·
13 收藏

sklearn逻辑回归(Logistic Regression,LR)类库使用小结

原文出处:http://www.07net01.com/2016/11/1706402.html,在原文的基础上做了一些修订sklearn中LogisticRegression的API如下,官方文档:http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklear
转载
发布博客 2016.12.22 ·
86737 阅读 ·
42 点赞 ·
4 评论 ·
213 收藏

线性收敛的随机优化算法之 SAG、SVRG(随机梯度下降)

原文出处:https://zhuanlan.zhihu.com/p/22402784?utm_source=tuicool&utm_medium=referral这篇文章回顾了基于梯度的随机优化算法在这几年的重要发展 -- SAG、SVRG。很多常见的机器学习模型的目标(比如最小二乘做线性回归、逻辑回归)都可以概括成以下这种一般形式:
转载
发布博客 2016.12.22 ·
26561 阅读 ·
13 点赞 ·
0 评论 ·
76 收藏

Python手撸逻辑回归(logistic regression)

与线性回归用于预测连续值不同,逻辑归回用于分类,原理与线性回归类似,定义损失函数,然后最小化损失,得到参数既模型,只不过损失的定义不同。逻辑回归的假设如图1所示,可以理解为线性回归外面套了一层sigmoid函数g(z),sigmoid函数图像如图2所示,该函数有很好的数学性质,其导数= g(z)*(1- g(z)),导数计算量小,当z=0时,其函数值为0.5,z越大,函数值越接近于1,z越小,
原创
发布博客 2016.12.21 ·
5911 阅读 ·
2 点赞 ·
0 评论 ·
3 收藏

python手撸线性回归(二)theta0不需要正则化

在上一篇关于线性回归的文章中,python手撸线性回归及参数解释,我们可以看到正则化项中并没有theta0二是从theta1开始的,In[7]的第三行Andrew在其机器学习中对此的解释是,按照惯例来讲,不去对θ0进行惩罚, 因此 θ0 的值是大的 这就是一个约定, 但其实在实践中这只会有非常小的差异 ,无论你是否包括θ0这项,结果只有非常小的差异,下边我们通过实验来证明,正则
原创
发布博客 2016.12.20 ·
3708 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

python手撸线性回归及参数解释

线性回归,简单的理解,在二维空间中,找到一条直线去尽可能的拟合样本数据,给出新的样本x,可以预测其y值,y是连续值,分类是离散值,如图1所示;如果是高维空间,那就是找到一个超平面去拟合,当然也可以是曲线;为了方便理解,以二维空间的直线为例,所谓找到最好的直线,就是找参数a和b,也就是theta[0],theta[1]。         如何去衡量一条直线是否是最好,在回归问题中一般用预测值与真
原创
发布博客 2016.12.14 ·
14992 阅读 ·
6 点赞 ·
0 评论 ·
29 收藏

人工神经网络

人工神经网络二分类问题,输出层使用softmax函数,所以输出层有两个神经元,output1表示样本属于类1的概率,output2表示样本属于类2的概率;输入的每个样本有两个特征,所以输入层有两个神经元,隐藏层假设有500个神经元,因为是全连接,所以W1(输入层与隐藏层间的权重)是2*500维矩阵,W2(隐藏层与输出层间的权重)是500*2维矩阵,b1是1*500矩阵,b2是1*2矩阵,b1和
原创
发布博客 2016.12.13 ·
1692 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

python数据可视化(matplotlib,pandas绘图,直方图,散点图,柱状图,折线图,箱线图)

原址:http://datacademy.io/lesson/63增加了一些注释数据可视化对于数据描述以及探索性分析至关重,恰当的统计图表可以更有效的传递数据信息。在 Python 中已经有很多数据可视化方面的第三方程序包,例如:matplotlibChacoPyXBokeh本节,我们将重点学习 matplotlib 的基础绘图功能以及 pandas 的高级可视化功
转载
发布博客 2016.10.09 ·
102039 阅读 ·
18 点赞 ·
3 评论 ·
206 收藏

baseball数据集用于python数据分析

发布资源 2016.10.09 ·
csv
加载更多