2018年02月_ChenVast

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创【机器学习】使用Scikit-Learn库实现K-近邻（KNN）算法

懒惰学习算法的典型例子。KNN仅仅对训练集有记忆功能，不会从其他训练集中通过学习得到一个判别函数参数化模型和非参数化模型：1、参数化模型，通过训练数据估计参数：感知机、逻辑回归、线性SVM2、非参数化模型，无法通过固定参数来进行表征，参数数量随训练数据的增加而递增：核SVM、决策树、KNN KNN基于实例的学习，只对训练数据产生记忆，学习阶

2018-02-06 15:51:29 3997

原创【机器学习】使用Scikit-Learn库实现随机森林

使用随机森林将弱分类器集成为强分类器随机森林视为多棵决策树的集成。集成学习的基本理念：将弱分类器集成为鲁棒性更强的模型（强分类器）。分类器集成后具备更好的泛化误差，不容易过拟合。使用随机森林步骤：1、使用bootstrap抽样法，随机选择n个样本用于训练2、使用第一步选择的样本构造决策树 1）不重复的随机选择d个特征

2018-02-06 15:50:01 2286

原创【机器学习】使用Scikit-Learn库实现决策树

决策树算法：。从树根来说，基于可获得的最大信息增益的特征来对数据进行划分通过迭代处理，在每个子节点上重复此划分过程，直到叶子结点。剪通过枝来限定树的最大深度。最大信息增益： ˚F为要划分的特征，DP与了Dj分别为父节点和第Ĵ个子节点，我为不纯度衡量标准，NP为父节点中的样本数量，新泽西州为第Ĵ个子节点中的样本数量。信息增益：父节点的不纯度与所有子节点不纯度总和之差，

2018-02-06 15:47:33 2049

原创【机器学习】使用Scikit-Learn库的核SVM解决非线性问题

SVM很容易的使用核技巧来解决非线性可分问题本文使用的数据集和库文件定义在该章节有定义了，链接：http://mp.blog.csdn.net/postedit/79196206建立异或数据集：np.random.seed (0)X_xor = np.random.randn (200, 2)y_xor = np.logical_xor (X_xor[:, 0] >

2018-02-06 15:32:15 2382

原创【机器学习】使用Scikit-Learn库实现支持向量机（SVM）最大化分类间隔

支持向量机是一种性能强大且广泛应用的学习算法SVM可以看做是感知机的扩展SVM的优化目标是最大化分类间隔，间隔指两个分离的超平面间的距离，最靠近超平面的训练样本为支持向量。使用松弛变量解决非线性可分问题：松弛系数的目的：对于非线性可分的数据来说，需要放松线性约束条件，保证在适当的罚项成本下，对错误分类的情况下进行优化时能够收敛。取值为正的松弛变量可以简

2018-02-06 15:23:04 1766

原创【机器学习】使用Scikit-Learn库的L2正则化解决过拟合问题

欠拟合，正常，过拟合图：偏差 - 方差权衡就是通过正则化调整模型的复杂度正则化是解决共线性的一个很有用的方法，可以过滤数据中的噪声，并最终防止过拟合。正则化背后的概念是引入额外的信息（偏差）来对极端数据参数权重做出惩罚。最常用的正则化为L2正则化也称为L2收缩或者权重衰减。L2公式：正则化的使用方法：在逻辑斯蒂回归的代价函数中加入正则化项，降低

2018-02-06 15:17:59 2096

原创【机器学习】使用Scikit-Learn库实现逻辑回归(LogisticRegression）

逻辑回归：针对二分类问题的简单但更高效的算法逻辑回归是一个分类模型，不是回归模型。逻辑回归是针对线性可分问题的一种易于实现且性能优异的分类模型。逻辑回归通过一对多技术可以扩展到多类别分类几率比：特定事件发生的几率p/(1-p)，p为正事件发生的几率。正事件：我们需要预测的事件逻辑函数是几率比的对数函数：log p/(1-p) 预测某一样本属于特定类别的概

2018-02-06 15:13:13 3125

原创【机器学习】使用Scikit-Learn库实现感知机

分类算法的选择：没有一种分类算法可以在所有可能的应用场景下都表现良好，只有比较了多种学习算法的性能，才能为特定问题挑选出最合适的模型。分类器的性能、计算能力和预测能力，在很大的程度上都依赖于模型的训练的数据。训练机器学习算法涉及的5个主要步骤：1、特征选择2、确定性能评价标准3、选择分类器及其优化算法4、对模型性

2018-02-06 15:03:56 2508

原创【机器学习】建立基于GitHub库的推荐系统引擎

如果不熟悉协同过滤算法的可以查看我的一篇文章：【推荐系统】协同过滤浅入（基于用户/项目/内容/混合方式）代码存放在我的GitHub：https://github.com/935048000/GitHubRecommendationSystem 开始该推荐引擎是用于GitHub的库推荐这里使用GitHub的API，基于协同过滤的推荐系统。这个推荐系统的任务是获得我所有标星的资...

2018-02-05 10:55:31 8090 6

原创【机器学习】模型的性能评价指标

混淆矩阵混淆矩阵：展示学习算法性能的一种矩阵，一个简单的方阵，展示一个分类器预测结果（真正，真负，假正，假负）的数量图：使用SKlearn的confusion_matrix方法实现混淆矩阵：from sklearn.metrics import confusion_matrixpipe_svc.fit(X_train, y_train)y_pre

2018-02-05 10:44:32 3215

原创【机器学习】网格搜索优化机器学习模型

机器学习中有两类参数：训练数据学习得到的参数、学习算法需要单独进行优化的参数（超参）超参优化技巧：网格搜索：通过寻找最优的超参值的组合以进一步提高模型的性能通过指定不同的超参列表进行暴力穷举搜索，并计算得到评估每个组合对模型性能的影响，获得参数的最优组合。实现网格搜索调优超参：# 通过网格搜索优化超参数结合k折交叉验证from sklearn.g

2018-02-05 10:34:18 3241

原创【机器学习】学习曲线和验证曲线

提高学习算法性能的简单但功能强大的判定工具：学习曲线，验证曲线学习曲线学习曲线能判定偏差和方差问题高偏差与高方差：以上模型应用于训练和交叉验证准确率很低，此模型未能很好打的拟合数据。常用的方法：增加模型参数的数量，或者降低正则化程度。如果不适合正则化则进行降维。使用SKlearn中的学习曲线函数评估模型：

2018-02-05 10:30:26 12475

原创【机器学习】K折交叉验证评估模型性能

holdout交叉验证和K折交叉验证可以得到模型的泛化误差的可靠估计（模型在新数据集是的性能表现）。holdout交叉验证holdout交叉验证是机器学习模型泛化性能的一个经典且常用的方法。holdout交叉验证能将最初的数据集分为训练集和测试集模型选择：对模型的的不同参数设置进行调优和比较的过程，也就是针对给定分类问题，调整参数以寻找最优值（超参）的过程。

2018-02-05 10:25:43 18533 5

原创【机器学习】基于流水线的工作流

使用SKlearn的Pipline类，拟合出包含任意多个处理步骤的模型，并将模型用于新的数据预测。流水线包含数据预处理还有评估器。代码有两个预处理环节，用于数据缩放和转换的StandardScaler和PCA。评估器为LogisticRegression分类器。工作流：StandardScaler—>PCA—>LogisticRegression流程图：

2018-02-05 09:59:56 1782

原创【机器学习】数据降维—核主成分分析(Kernel PCA)

本文代码推荐使用Jupyter notebook跑，这样得到的结果更为直观。KPCA：将非线性可分的数据转换到一个适合对齐进行线性分类的新的低维子空间上。非线性函数：Φ为一个函数，能够对原始的特征进行非线性组合，将原始的d维数据集映射到更高的k维特征空间。利用核PCA可以通过非线性映射将数据转换到一个高维空间中，在高维空间中使用PCA将其映射到另一个低维空间中

2018-02-03 13:33:51 18338 4

原创【机器学习】数据降维—线性判别分析（LDA）

本文代码推荐使用Jupyter notebook跑，这样得到的结果更为直观。线性判别分析（Linear Discriminant Analysis,LDA）是一种可作为特征抽取的技术LDA可以提高数据分析过程中的计算效率，对于未能正则化的模型，可以降低维度灾难带来的过拟合。 LDA与PCA相似： PCA试图寻找到方差最大的正交的主成分分量轴， LDA发现可以最优化分类的

2018-02-03 13:33:39 10572 13

原创【机器学习】数据降维—主成分分析（PCA）

本文代码推荐使用Jupyter notebook跑，这样得到的结果更为直观。主成分分析（PCA）特征抽取通常用于提高计算效率，降低维度灾难。主成分分析（Principe component analysis，PCA）：是一种广泛应用于不同领域的无监督线性数据转换技术，作用是降维。常用领域：股票交易市场数据的探索性分析和信号去噪、生物信息学领域的基因组

2018-02-02 10:44:27 11351 3

clickhouse+springboot+logback的Demo

大数据项目模板

2021-01-19

目录：数学基础 1.线性代数基础 2.概率论基础 3.数值计算基础 4.常用函数统计学习 0.机器学习简介 1.线性代数基础 2.支持向量机 3.朴素贝叶斯 4.决策树 5.knn 6.集成学习 7.梯度提升树 8.特征工程 9.模型评估 10.降维 11.聚类深度学习 0.深度学习简介 1.机器学习基础 2.深度前馈神经网络 3.BP算法 4.正则化 5.最优化础 6.卷积神经网络 7.循环神经网络 8.工程实践指导原则自然语言处理主题模型词向量计算机视觉图片分类网络工具 CRF CRF++ lightgbm xgboost

2018-10-15

机器学习系列文章

2018-10-08

《精益数据分析》埃里克·莱斯

本书展示了如何验证自己的设想、找到真正的客户、打造能赚钱的产品，以及提升企业知名度。30多个案例分析，全球100多位知名企业家的真知灼见，为你呈现来之不易、经过实践检验的创业心得和宝贵经验，值得每位创业家和企业家一读。深入理解精益创业、数据分析基础，和数据驱动的思维模式如何将六个典型的商业模式应用到各种规模的新企业找到你的第一关键指标确定底线，找到出发点在大企业中应用精益分析，打造新产品

2018-09-25

《程序员的数学3-线性代数》

2018-09-05

《大数据时代的算法》机器学习、人工智能及其典型实例-刘凡平

《大数据时代的算法》机器学习、人工智能及其典型实例-刘凡平，

2018-09-05

大数据分析下的数据预处理

大数据分析下的数据预处理，大数据分析下的数据预处理，大数据分析下的数据预处理，

2018-07-30

数据仓库中的ETL和元数据

数据仓库中的ETL和元数据，数据仓库中的ETL和元数据，数据仓库中的ETL和元数据，数据仓库中的ETL和元数据

2018-07-30

聚类分析方法

聚类分析方法，聚类分析方法，聚类分析方法，聚类分析方法，聚类分析方法，

2018-07-30

电子商务与数据挖掘

2018-07-30

大型数据库中的关联规则挖掘

大型数据库中的关联规则挖掘，大型数据库中的关联规则挖掘，大型数据库中的关联规则挖掘

2018-07-30

数据挖掘概述

数据挖掘概述，数据挖掘概述，数据挖掘概述，数据挖掘概述，数据挖掘概述，

2018-07-30

文本挖掘概述与方法

文本挖掘概述与方法，文本挖掘概述与方法，文本挖掘概述与方法，文本挖掘概述与方法，文本挖掘概述与方法，

2018-07-30

WEKA数据挖掘教程

数据挖掘，WEKA开源软件，数据挖掘，WEKA开源软件，数据挖掘，WEKA开源软件，数据挖掘，WEKA开源软件，

2018-07-30

OLAP联机分析处理

OLAP联机分析处理，OLAP联机分析处理，OLAP联机分析处理，OLAP联机分析处理

2018-07-30

R语言入门详解

R语言绘图，R语言绘图，R语言绘图，R语言绘图，R语言绘图，R语言绘图，R语言绘图

2018-07-30

Python机器学习实践指南

Python机器学习实践指南Python机器学习实践指南Python机器学习实践指南Python机器学习实践指南Python机器学习实践指南

2018-03-19

python机器学习入门实战

python机器学习理论+实战，线性回归。逻辑回归、决策树、SVM、感知机、随机森林、正则化

2018-02-05

pycharm2017汉化包

pycharm2017汉化包pycharm2017汉化包pycharm2017汉化包pycharm2017汉化包pycharm2017汉化包pycharm2017汉化包pycharm2017汉化包pycharm2017汉化包pycharm2017汉化包pycharm2017汉化包pycharm2017汉化包pycharm2017汉化包

2017-09-18

全面的各类RAID详解

磁盘阵列（Redundant Arrays of Independent Disks，RAID），全称独立磁盘冗余阵列。磁盘阵列是由很多廉价的磁盘，组合成一个容量巨大的磁盘组，利用个别磁盘提供数据所产生加成效果提升整个磁盘系统效能。利用这项技术，将数据切割成许多区段，分别存放在各个硬盘上。利用同位检查（Parity Check）的观念，在数组中任意一个硬盘故障时，仍可读出数据，在数据重构时，将数据经计算后重新置入新硬盘中。相同的数据存储在多个硬盘的不同的地方的方法。通过把数据放在多个硬盘上（冗余），输入输出操作能以平衡的方式交叠，改良性能。因为多个硬盘增加了平均故障间隔时间（MTBF），储存冗余数据也增加了容错。

2017-09-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

clickhouse+springboot+logback的Demo

TeamViewer 14

数据分析师常用的十种数据分析思路

机器学习知识手册

机器学习系列文章

《精益数据分析》埃里克·莱斯

《程序员的数学3-线性代数》

《大数据时代的算法》 机器学习、人工智能及其典型实例-刘凡平

大数据分析下的数据预处理

数据仓库中的ETL和元数据

聚类分析方法

电子商务与数据挖掘

大型数据库中的关联规则挖掘

数据挖掘概述

文本挖掘概述与方法

WEKA数据挖掘教程

OLAP联机分析处理

R语言入门详解

Python机器学习实践指南

python机器学习入门实战

pycharm2017汉化包

全面的各类RAID详解

MySQL-5.7英文参考手册.pdf

MySQL 5.5 中文参考手册.pdf

ITIL流程图

CentOS 7 下安装OpenStack Ocata

WinRAR_x64_SC.exe

PyDev 5.0.0.zip

collectd-5.4.2.tar.gz

互联网分析

空空如也

《大数据时代的算法》机器学习、人工智能及其典型实例-刘凡平