机器学习系列课程 快速学习实战应用
python机器学习、深度学习各类算法示例: lr/svm/gbdt/xgboost/各种聚类分析/关联分析/集成学习,dnn/cnn/rnn 。scikit-learn、caffe、keras、tensorflow,opencv,nlp相关知识。
¥29.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅博主任意付费专栏,享有该博主全部专栏一年阅读权限。
本专栏为虚拟产品,一经付款概不退款,敬请谅解。
腾讯数据架构师
主要涉及领域 docker kubernetes 云原生技术,大数据架构,分布式微服务,自动化测试、运维,AI平台
-
原创 微服务架构系列文章、精品教程
架构系列文章大全2020-03-30 22:35:509905
6
-
原创 python系列文章(基础,应用,后端,运维,自动化测试,爬虫,数据分析,可视化,机器学习,深度学习系列内容)
python基础教程python基础系列教程——Python的安装与测试:python解释器、PyDev编辑器、pycharm编译器python基础系列教程——Python库的安装与卸载python基础系列教程——Python3.x标准模块库目录python基础系列教程——Python中的编码问题,中文乱码问题python基础系列教程——python基础语法全解python...2019-11-07 15:42:48165398
157
-
原创 时间序列分析预测
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程时间序列中常用预测技术,一个时间序列是一组对于某一变量连续时间点或连续时段上的观测值。参考:https://blog.csdn.net/u010414589/article/details/496226251. 移动平均法 (MA)1.1. 简单移动平均法设有一时间序列y1,y2,…, 则按数据点的顺...2020-04-09 22:52:15480
0
-
转载 ubuntu安装opencv的c++开发环境
为了搭建opencv3,看了各种教程,装了卸,卸了装,多次失败后,在几篇文档的借鉴下,终于是成功搭建了环境。首先,更新ubuntu上的一些库:sudo apt-get updatesudo apt-get upgrade其次,需要安装一些搭建opencv3的库(要在opencv3搭建前安装好)具体需要的库如下:sudo apt-get install cmakes...2018-07-24 12:57:5618247
3
-
转载 tensorflow c++接口,python训练模型,c++调用
调用tensorflow c++接口,首先要编译tensorflow,要装bazel,要装protobuf,要装Eigen,整体过程还是比较麻烦,bazel安装过程就不说了,下面慢慢来说明下安装步骤。Eigen(矩阵库下载):wget http://bitbucket.org/eigen/eigen/get/3.3.4.tar.bz2下载之后解压放在重新命名为eigen3,我存...2018-07-24 14:50:558504
5
-
转载 NLP自然语言处理库系列教程——gensim库
Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口。 - LSI - LDA - HDP - DTM - DIM - TF-IDF - word2vec...2018-05-25 16:53:285866
0
-
原创 python机器学习案例系列教程——LightGBM算法
全栈工程师开发手册 (作者:栾鹏) python教程全解安装pip install lightgbmgitup网址:https://github.com/Microsoft/LightGBM中文教程http://lightgbm.apachecn.org/cn/latest/index.htmllightGBM简介xgboost的出现,让数据民工们告别了传统的机器学习算法们:RF、GBM2018-05-08 16:23:0844840
2
-
原创 python机器学习案例系列教程——GBDT构建新特征
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程GBDT的算法参考:https://blog.csdn.net/luanpeng825485697/article/details/79766455Gradient Boosting是一种Boosting的方法,它主要的思想是,每一次建立模型是在之前建立模型损失函数的梯度下降方向。损失函数是评价模型性能(一般为拟合程度+正则2018-05-01 17:54:089213
2
-
原创 python机器学习库keras——AutoEncoder自编码、特征压缩
全栈工程师开发手册 (作者:栾鹏) python教程全解keras使用深度网络实现自编码,也就是说对每个样本的n维特征,使用k为特征来表示,实现编码压缩的功能。也实现了特征选择的功能。比如手写体包含754个像素,也就包含754个特征,如果想用两个特征表示。在二维矩阵中就能识别手写体数字该怎么做呢。自编码器是无监督的学习。它是一种仿人脑的对特征逐层抽象提取的过程,学习过程中...2018-05-01 10:02:1810747
1
-
原创 python机器学习库keras——CNN卷积神经网络人脸识别
全栈工程师开发手册 (作者:栾鹏) python教程全解github地址:https://github.com/626626cdllp/kears/tree/master/Face_Recognition图片来源图片中共40个人,每人10张图片,每张图片高57,宽47。共400张图片。读取图片的py文件import numpyimport pan...2019-11-08 15:24:0010422
4
-
原创 python机器学习库keras——CNN卷积神经网络识别手写体
全栈工程师开发手册 (作者:栾鹏) python教程全解keras使用CNN识别手写体其中使用到了MNIST.py文件,该文件读取手写体文件,返回数组数据。可参考我的github:https://github.com/626626cdllp/kears/tree/master/MNISTimport numpy as npnp.random.seed(13...2018-04-29 14:57:2511395
2
-
原创 python机器学习库keras——线性回归、逻辑回归、一般逻辑回归
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程线性回归import numpy as npfrom keras.models import Sequentialfrom keras.layers import Denseimport matplotlib.pyplot as plt# 样本数据集,第一列为x,第二列为y,在x和y之间建立回归模型data=[2018-04-29 11:13:199049
0
-
转载 机器学习案例系列教程——损失函数总结
注意区分样本损失,和样本集的损失在本文,我们要注意区分,一个样本的损失值为 loss(y,f(x))loss(y,f(x))loss(y,f(x)) 而多个样本的损失值为 1n∑i=1nloss(y,f(x))1n∑i=1nloss(y,f(x))\frac{1}{n}\sum_{i=1}^nloss(y,f(x))所说义如果我们说一个算法的损失函数,都是针对一个样本的。只不过有些文...2018-04-22 09:50:204408
0
-
转载 机器学习案例系列教程——距离度量方法总结
在数据挖掘中,无论是对数据进行分类、聚类还是异常检测、关联性分析,都建立在数据之间相似性或相异性的度量基础上。通常使用距离作为数据之间相似性或相异性的度量方法,常用的度量方法有欧式距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、汉明距离、余弦距离、马氏距离、Jaccard系数、相关系数、信息熵。欧式距离 n维空间中两个样本点x和y之间的欧几里得距离定义如下: d(x,y)=Σn...2018-04-21 18:08:283874
0
-
转载 机器学习案例系列教程——优化方法总结(梯度下降法、牛顿法、拟牛顿法、共轭梯度法等)
梯度下降法梯度下降法是最早最简单,也是最为常用的最优化方法。梯度下降法实现简单,当目标函数是凸函数时,梯度下降法的解是全局解。一般情况下,其解不保证是全局最优解,梯度下降法的速度也未必是最快的。梯度下降法的优化思想是用当前位置负梯度方向作为搜索方向,因为该方向为当前位置的最快下降方向,所以也被称为是”最速下降法“。最速下降法越接近目标值,步长越小,前进越慢。梯度下降法的搜索迭代示意图如下图所示...2018-04-21 15:46:265769
0
-
转载 python机器学习案例系列教程——算法总结
机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。通常最开始我们都会选择大家普遍认同的算法,诸如SVM,GBDT,Adaboost,现在深度学习很火热,神经网络也是一个不错的选择。假如你在乎精度(accuracy)的话,最好的方法就是通过交叉验证(cross-validation)对各个算法一个个地...2018-04-17 22:42:357700
3
-
原创 python机器学习库xgboost——xgboost算法
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程安装xgboost目前还不能pip在线安装,所以先在网址https://www.lfd.uci.edu/~gohlke/pythonlibs/#xgboost 中下载whl文件,然后参考https://blog.csdn.net/luanpeng825485697/article/details/7781...2018-04-12 08:56:4040004
5
-
原创 python机器学习库sklearn——特征提取
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程注意:特征特征提取与 特征选择 有很大的不同:前者包括将任意数据(如文本或图像)转换为可用于机器学习的数值特征。后者是将这些特征应用到机器学习中。从字典类型加载特征类 DictVectorizer 可用于将标准的Python字典(dict)对象列表的要素数组转换为 scikit-learn 估计器使用...2018-04-10 10:49:376667
0
-
原创 python机器学习库sklearn——SGD梯度下降法
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程梯度下降法算法详情参考:https://www.cnblogs.com/pinard/p/5970503.html随机梯度下降(SGD) 是一种简单但又非常高效的方法,主要用于凸损失函数下线性分类器的判别式学习,例如(线性) 支持向量机 和 Logistic 回归 。Stochastic Gradient Descent (2018-04-09 17:02:3812790
3
-
原创 python机器学习库sklearn——特征选择
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程移除低方差特征VarianceThreshold 是特征选择的一个简单基本方法,它会移除所有那些方差不满足一些阈值的特征。默认情况下,它将会移除所有的零方差特征,即那些在所有的样本上的取值均不变的特征。# ============去除方差小于阈值的特征============from sklearn.feature_sel2018-04-09 15:23:446321
0
-
原创 python机器学习库sklearn——BIRCH聚类
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程BIRCH聚类的相关的知识内容可以参考 https://blog.csdn.net/luanpeng825485697/article/details/79675520sklearn之BIRCH类在scikit-learn中,BIRCH类实现了原理篇里讲到的基于特征树CF Tree的聚类。因此要使用BIRCH来聚类,关键2018-04-08 23:22:167842
1
-
原创 python机器学习库sklearn——多类、多标签、多输出
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程Multiclass classification 多类分类: 意味着一个分类任务需要对多于两个类的数据进行分类。比如,对一系列的橘子,苹果或者梨的图片进行分类。多类分类假设每一个样本有且仅有一个标签:一个水果可以被归类为苹果,也可以 是梨,但不能同时被归类为两类。Multilabel classification 多标签分2018-04-08 22:03:1916861
1
-
原创 python机器学习库sklearn——集成方法(Bagging、Boosting、随机森林RF、AdaBoost、GBDT)
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程集成方法 的目标是把多个使用给定学习算法构建的基估计器的预测结果结合起来,从而获得比单个估计器更好的泛化能力/鲁棒性。集成方法 相关的知识内容可以参考 https://blog.csdn.net/luanpeng825485697/article/details/79383492这里只讲述sklearn中...2018-04-08 17:19:1316072
2
-
原创 python机器学习库sklearn——生成样本数据
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程sklearn自带数据sklearn自动了下面几种数据用于算法练习。load_boston([return_X_y]) 加载波士顿房价数据;用于回归问题load_iris([return_X_y]) 加载iris 数据集;用于分类问题load_diabetes([return_X_y]) 加载...2018-04-08 15:45:5013118
0
-
原创 python机器学习库sklearn——数据预处理
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程主要操作内容标准化,也称去均值和方差按比例缩放 将特征缩放至特定范围内缩放稀疏(矩阵)数据缩放有离群值的数据核矩阵的中心化非线性转换归一化二值化 特征二值化分类特征编码缺失值插补生成多项式特征直接上代码,大家可以运行代码,打印输出各种结果来理解预处理的处理过程。from sklearn import2018-04-07 22:01:155896
1
-
原创 python机器学习库sklearn——模型评估
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程各类模型评估详细意思参考:https://blog.csdn.net/luanpeng825485697/article/details/80033421常见场景: 预定义值 Scoring(得分) Function(函数) Comment(注解) Classification(...2018-04-07 12:34:026192
3
-
原创 python机器学习库sklearn——交叉验证(K折、留一、留p、随机)
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程学习预测函数的参数,并在相同数据集上进行测试是一种错误的做法: 一个仅给出测试用例标签的模型将会获得极高的分数,但对于尚未出现过的数据它则无法预测出任何有用的信息。 这种情况称为 overfitting(过拟合). 为了避免这种情况,在进行(监督)机器学习实验时,通常取出部分可利用数据作为 test set(测试...2018-04-06 20:00:3257369
5
-
原创 python机器学习库sklearn——参数优化(网格搜索GridSearchCV、随机搜索RandomizedSearchCV、hyperopt)
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程优化的相关的知识内容可以参考 https://blog.csdn.net/luanpeng825485697/article/details/78765923网格搜索GridSearchCVGridSearchCV用于系统地遍历多种参数组合,通过交叉验证确定最佳效果参数。classskle...2018-04-06 14:34:4825043
0
-
原创 python机器学习库sklearn——Lasso回归(L1正则化)
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程The Lasso 是估计稀疏系数的线性模型。 它在一些情况下是有用的,因为它倾向于使用具有较少参数值的情况,有效地减少给定解决方案所依赖变量的数量。 因此,Lasso 及其变体是压缩感知领域的基础。 在一定条件下,它可以恢复一组非零权重的精确集。在数学公式表达上,它由一个带有ℓ1 \ell_1 先验的正则项的线性模型组成。2018-04-06 09:00:5647822
2
-
原创 python机器学习库sklearn——岭回归(Ridge、RidgeCV)(L2正则化)
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程Ridge 回归通过对系数的大小施加惩罚来解决 普通最小二乘法 的一些问题。 岭系数最小化的是带罚项的残差平方和,minw||Xw−y||22+α||w||22minw||Xw−y||22+α||w||22\underset{w}{min\,} {{|| X w - y||_2}^2 + \alpha {...2018-04-05 22:09:2923019
0
-
原创 python机器学习库sklearn——支持向量机svm
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程支持向量机svm的相关的知识内容可以参考 https://blog.csdn.net/luanpeng825485697/article/details/78823919支持向量机的优势在于:在高维空间中非常高效.即使在数据维度比样本数量大的情况下仍然有效.在决策函数(称为支持向量)中使用训练集的...2018-04-03 22:04:1229573
6
-
原创 python机器学习案例系列教程——最小生成树(MST)的Prim算法和Kruskal算法
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程最小生成树MST一个有 n 个结点的连通图的生成树是原图的极小连通子图,且包含原图中的所有 n 个结点,并且有保持图连通的最少的边。也就是说,用原图中有的边,连接n个节点,保证每个节点都被连接,且使用的边的数目最少。最小权重生成树在一给定的无向图G=(V,E)G=(V,E)G = (V, E)...2018-04-03 19:44:245279
1
-
原创 python机器学习案例系列教程——基于规则的分类器
全栈工程师开发手册 (作者:栾鹏) python开发大全、系列文章、精品教程算法简介基于规则的分类器是使用一组”if…then…”规则来对记录进行分类的技术。模型的规则用 R=(r1∨r2∨∙∙∙∨rk)R=(r1∨r2∨•••∨rk)R =(r_1 ∨ r_2 ∨ ••• ∨ r_k)表示,其中R称作规则集,ririr_i 是分类规则。每一个分类规则可以表示...2018-04-03 17:35:135439
0
-
原创 python机器学习案例系列教程——聚类算法总结
全栈工程师开发手册 (作者:栾鹏) python教程全解一、什么是聚类?聚类(Clustering):聚类是一个人们日常生活的常见行为,即所谓“物以类聚,人以群分”,核心的思想也就是聚类。人们总是不断地改进下意识中的聚类模式来学习如何区分各个事物和人。同时,聚类分析已经广泛的应用在许多应用中,包括模式识别,数据分析,图像处理以及市场研究。通过聚类,人们能意识到密集和稀...2018-04-03 16:31:348029
0
-
原创 python机器学习案例系列教程——GBDT算法、XGBOOST算法
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程1. GBDT概述 GBDT也是集成学习Boosting家族的成员,但是却和传统的Adaboost有很大的不同。回顾下Adaboost,我们是利用前一轮迭代弱学习器的误差率来更新训练集的权重,这样一轮轮的迭代下去。GBDT也是迭代,使用了前向分布算法,但是弱学习器限定了只能使用CART回归树模型,同...2018-03-31 15:58:279193
1
-
转载 python机器学习案例系列教程——BIRCH聚类
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程1. BIRCH概述 BIRCH的全称是利用层次方法的平衡迭代规约和聚类(Balanced Iterative Reducing and Clustering Using Hierarchies),名字实在是太长了,不过没关系,其实只要明白它是用层次方法来聚类和规约数据就可以了。刚才提到了,BIRCH只需要单遍扫描数据2018-03-30 22:23:575699
2
-
原创 python深度学习库系列教程——python调用opencv库教程
全栈工程师开发手册 (作者:栾鹏) python教程全解OpenCV安装pip install --upgrade setuptoolspip install numpy Matplotlibpip install opencv-pythonOpenCV的结构和Python一样,当前的OpenCV也有两个大版本,OpenCV2和OpenCV3。相比OpenCV2,OpenCV3提供了2018-03-17 15:47:3327318
0
-
原创 python机器学习库sklearn——DBSCAN密度聚类
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程DBSCAN密度聚类的相关的知识内容可以参考 http://blog.csdn.net/luanpeng825485697/article/details/79438025DBSCANThe DBSCAN 算法将聚类视为被低密度区域分隔的高密度区域。由于这个相当普遍的观点, DBSCAN发现的聚类...2018-03-05 11:13:1232767
2
-
原创 python机器学习案例系列教程——DBSCAN密度聚类
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法,和K-Means,BIRCH这些一般只适用于凸样本集的聚类相比,DBSCAN既可以适用于凸样本集,也可以适用于非凸样本集。下面我2018-03-04 22:12:556096
0
-
原创 python机器学习案例系列教程——模型评估总结
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程回归评估指标均方误差(MSE)MSE (Mean Squared Error)叫做均方误差。看公式 1m∑i=1m(yi−f(xi))21m∑i=1m(yi−f(xi))2\frac{1}{m}\sum_{i=1}^m(y_i-f(x_i))^2均方根误差(RMSE)RMSE(Root Mea...2018-03-04 17:00:257411
0