Aba Eura-CSDN博客

原创 Python数据可视化 | Visualization tricks using Seaborn (2)

Visualization tricks using Seaborn (2)In the process of making visual charts, we often need to deal with the relationship between numeric variables(N) and category variables©. Somethings we need to d...

2020-02-08 11:29:07 601

原创 Python数据可视化 | Visualization tricks using Seaborn (1)

Visualization tricks using Seaborn (1)In the process of making visual charts, we often need to deal with the relationship between numeric variables(N) and category variables©. Somethings we need to d...

2020-02-08 11:25:30 703

原创 Python数据可视化 | seaborn heatmap可视化模式亲测

seaborn heatmap可视化模式亲测利用heatmap绘制协方差矩阵是数据可视化中常见的操作，而对颜色的选取则是一种艺术了。在不同的场景下有可能我们需要不同的色调或者颜色的搭配。而seaborn中的heatmap函数为我们提供了便捷。Seaborn中有非常多的颜色选项可以选择，这里将效果一一亲测。数据如下：这里我们用最为简单的数据绘制协方差矩阵的图。import pandas as ...

2020-02-08 11:22:09 2012

原创图像处理实践 | 水果图像的识别与分类

水果图像的识别与分类1 数据获取与数据集介绍数据来源：公开水果数据集fruit-360，包含几十种水果的彩色图片，图片格式为100*100像素，训练集中，每种水果都有上百张各种角度拍摄的照片。可以通过对图像的预处理、特征提取，并构建分类器对于水果照片进行分类。数据集可从Github上下载：https://github.com/Horea94/Fruit-Images-Dataset2 预处...

2020-02-08 11:12:54 27237 73

原创图像处理实践 | 基于MNIST数据集的手写数字识别

基于MNIST数据集的手写数字识别1数据获取与数据集介绍数据来源：Kaggle Competition：Digit Recognizer, Learn computer vision fundamentals with the famous MNIST data.该数据集包含数万条手写数据的图像信息，目标是对于根据有标记的手写数据图像数据建模，从而对未标记的数据进行分类。该比赛是计算机视觉...

2020-02-08 11:06:39 2547 1

原创 Kaggle | IEEE Fraud Detection（Data Processing and Simplest Model）

IEEE Fraud Detection - Data Processing and Simplest ModelIn this section we will do some data cleaning jobs, which is necessary before we build our models.We have seen the distributions of all kinds...

2020-02-07 21:25:00 1277

原创 Kaggle | IEEE Fraud Detection（EDA）

IEEE Fraud Detection - EDA1 DescriptionIn this competition, you’ll benchmark machine learning models on a challenging large-scale dataset. The data comes from Vesta’s real-world e-commerce transacti...

2020-02-07 21:23:41 1464

原创 Kaggle | ASHRAE The first step（EDA with Python）

ASHRAE - The first step: EDA with PythonIn this competition we will develop models to predict the energy usage in each building. The dataset contains 1450+ buildings information. Different buildings ...

2020-02-07 21:16:51 907

原创 Kaggle | Santander Customer Transaction Prediction（EDA and Baseline）

Santander Customer Transaction Prediction: EDA and Baseline1 DescriptionAt Santander our mission is to help people and businesses prosper. We are always looking for ways to help our customers unders...

2020-02-07 20:55:48 1408

原创深度学习基础 | Build the Neural Network with Pytorch from Scratch

Build the Neural Network with Pytorch from ScratchIn this article I summarize the constructing processes of different kinds of neural networks. By using the tools in Pytorch, you can build these neur...

2020-02-07 20:50:27 426

原创深度学习基础 | Basic Usage of Pytorch

Basic Usage of PytorchIn this passage we summarize the basic usage of Pytorch. Pytorch is really convenient when we need to build a neural network and do all kinds of work in Deeplearning.import tor...

2020-02-07 20:45:09 284

原创经典算法 | XGBoost、LightGBM、CatBoost比较

XGBoost、LightGBM、CatBoost比较1 概述在深度学习红极一时的情况下，boosting算法仍然有其用武之地，尤其在训练样本量较少、训练时间较短、缺乏调参先验等情况下，boosting算法仍然保持着其优势。kaggle比赛中boosting算法更是占据了大多数席位。本文总结了多篇文献和博客中对于三种算法的介绍，从多角度对这几种具有代表性的 boosting 算法进行对比，方便...

2020-02-05 10:43:47 7999 1

原创经典算法 | The Parameters of XGBoost and LightGBM

The Parameters of XGBoost and LightGBM1 Parameters of XGBoostThere are three types of parameters that we need to focus on: General parameters, Booster parameters as well as Objective parameters.1....

2020-02-05 10:43:04 1085

原创经典算法 | Something about XGBoost

Something about XGBoostXGBoost is one of the most widely used machine learning algorithm. This passage talks about the main idea of XGBoost and my conprehension about the model.1 Background Knowledg...

2020-02-05 10:42:18 585

原创模式识别 | PRML Chapter 10 Approximate Inference

PRML Chapter 10 Approximate Inference10.1 Variational InferenceFor observed variable X={x1,...,xN}X=\{x_1,...,x_N\}X={x1,...,xN} and latent Z={z1,...,zN}Z=\{z_1,...,z_N\}Z={z1,...,zN}. Our proba...

2020-02-05 10:35:46 558

原创模式识别 | PRML Chapter 9 Mixture Models and EM

PRML Chapter 9 Mixture Models and EM9.1 K-means ClusteringConsider the problem of identifying groups or clusters of data points in a multidimensional space.To describe the assignment of data points...

2020-02-05 10:34:43 488

原创模式识别 | PRML Chapter 8 Graphical Models

PRML Chapter 8 Graphical Models8.1 Bayesian NetworksA specific graph can make probabilistic statements for a broad class of distributions. We can writh the joint distribution in the form:p(a,b,c)=p...

2020-02-02 20:52:10 380

原创模式识别 | PRML Chapter 7 Sparse Kernel Machines

PRML Chapter 7 Sparse Kernel Machines7.1 Maximum Margin ClassifiersThe two-class classification problem using linear models of the form:y(x)=wTϕ(x)+by(x) = w^{T}\phi(x) + by(x)=wTϕ(x)+bThe maximum...

2020-02-02 20:51:09 555

原创模式识别 | PRML Chapter 6 Kernel Methods

PRML Chapter 6 Kernel MethodsFor models which are based on a fixed nonlinear feature space mapping ϕ(x)\phi(x)ϕ(x), the kernel function is given by the relation:k(x,x′)=ϕ(x)Tϕ(x′)k(x, x^{'}) = \phi(...

2020-02-02 20:50:28 447

原创模式识别 | PRML Chapter 5 Neural Networks

PRML Chapter 5 Neural Networks5.1 Feed-forward Network FunctionsA network with one hidden layer may be the form like this:yk(x,w)=σ(∑j=1Mwkj2h(∑i=1Dwji1xi+wj01)+wk02)y_{k}(x, w) = \sigma\left( \sum...

2020-02-02 20:49:49 513

原创模式识别 | PRML Chapter 4 Linear Models for Classification

PRML Chapter 4 Linear Models for Classification4.1 Discriminant Functions4.1.1 Two classesThe simplest representation of a linear discriminant function can be expressed as:y(x)=wTx+w0y(x) = w^{T}x...

2020-02-02 20:48:38 449

原创模式识别 | PRML Chapter 3 Linear Models for Regression

PRML Chapter 3 Linear Models for Regression3.1 Linear Basis Function ModelsThe simplest linear model for regression is the form:y(x,w)=w0+∑j=1M−1wjϕj(x)y(x, w) = w_{0} + \sum_{j=1}^{M-1}w_{j}\phi_{...

2020-02-02 20:47:57 438

原创模式识别 | PRML Chapter 2 Probability Distributions

PRML Chapter 2 Probability Distributions2.1 Binary Variablesbernoulli distribution: Bern(x∣μ)=μx(1−μ)1−xBern(x | \mu) = \mu^{x}(1-\mu)^{1-x}Bern(x∣μ)=μx(1−μ)1−xbinomial distribution: Bin(m∣N,μ)=N!...

2020-02-02 20:45:56 313

原创模式识别 | PRML Chapter 1 Introduction

PRML Chapter 1 Introduction1.1 Example：Polynomial Curve FittingFor a simple regression problem, our goal is to use the training set to predict new value t^\hat{t}t^ for input variable x^\hat{x}x^. T...

2020-02-02 20:45:12 574

原创模式识别 | PRML概览

PRML全书概览PRML全称Pattern Recognition and Machine Learning，个人认为这是机器学习领域中最好的书籍之一，全书的风格非常Bayesian，作者试图在贝叶斯框架下解释每一种机器学习模型。阅读起来有一定难度，不适合作为机器学习入门教材。然而这本书提供的贝叶斯视角有助于我们更为立体全面理解一些经典模型。全书分为十四个章节，这里我尽可能简要概述每个章节的主...

2020-02-02 20:43:54 1782

原创 Python机器学习 | 基础教程归纳(下)

此系列文章提炼《Python机器学习基础教程》最核心要点第四章数据表示与特征工程一、分类变量1、One-Hot编码（虚拟变量）1）检查字符串编码的分类数据（可能有表示不同但是含义相同的数据：man、male等）print(data.gender.value_counts())2）利用get_dummies函数自动变换字符串和分类的列data_dummies=pd.get_dum...

2019-04-08 09:11:24 597

原创 Python机器学习 | 基础教程归纳(上)

此系列文章提炼《Python机器学习基础教程》最核心要点第一章引言一、熟悉任务1、确定回答的问题2、表示成机器学习的问题3、收集的数据是否足够表示这类问题4、提取了哪些特征，能否实现正确预测5、如何衡量成功6、解决方案与研究或商业产品有哪些是互相影响的二、必要的工具三、基本操作1、观察数据1）训练测试集划分X_train,X_test,y_train,y_test...

2019-04-08 08:51:09 615

原创机器学习理论 | 周志华西瓜书第十六章：强化学习

第十六章强化学习此系列文章旨在提炼周志华《机器学习》的核心要点，不断完善中…16.1 任务与奖赏通常使用马尔可夫决策过程(MDP)描述目的：找到能长期积累奖赏最大化策略长期奖赏方式T步积累奖赏：E[1T∑t=1Trt]\mathbb{E}[\frac 1 T\sum_{t=1}^Tr_t]E[T1∑t=1Trt]γ折扣积累奖赏：E[∑t=0+∞γtrt+1]\mathbb...

2019-04-07 20:33:26 1387

原创机器学习理论 | 周志华西瓜书第十五章：规则学习

第十五章规则学习此系列文章旨在提炼周志华《机器学习》的核心要点，不断完善中…15.1 基本概念规则：语义明确，能描述数据分布所隐含的客观规律或领域概念规则学习：从训练数据中学习一种能用于未见示例进行判别的规则优点：有更好的可解释性、有冲突可进行冲突消解15.2 序贯覆盖（分治策略）原因：规则学习的目标是产生一个能覆盖尽可能多的样例的规则集，最直接做法——序贯覆盖（逐条归纳）...

2019-04-07 20:11:24 1115

原创机器学习理论 | 周志华西瓜书第十四章：概率图模型

第十四章概率图模型此系列文章旨在提炼周志华《机器学习》的核心要点，不断完善中…14.1 隐马尔可夫模型1、概述机器学习最重要任务：根据一些已观察到的证据对感兴趣的未知变量进行估计和推测概率模型提供的描述框架——推断基于可观测变量推出未知变量的条件分布所关系变量集：Y；可观测变量集：O；其他变量集：R生成式模型：对联合分布P(Y,R,O)P(Y,R,O)P(Y,R,O)...

2019-04-04 21:23:22 1222

原创机器学习理论 | 周志华西瓜书第十三章：半监督学习

第十三章半监督学习此系列文章旨在提炼周志华《机器学习》的核心要点，不断完善中…13.1 未标记样本1、一些概念主动学习(active learning)：使用尽量少的query获得经良好的性能半监督学习(semi-supervised learning)：让学习器不依赖外界交互，自动利用未标记样本来提升学习性能2、一些假设聚类假设(cluster assumption)：假设数据...

2019-04-04 18:40:15 1093

原创机器学习理论 | 周志华西瓜书第十二章：计算学习理论

第十二章计算学习理论此系列文章旨在提炼周志华《机器学习》的核心要点，不断完善中…12.1 基础知识1、概述目的：分析学习任务的困难本质，为学习算法提供理论保证）2、一些定义令h为从X到Y的映射，h的泛化误差：E(h;D)=Px∼D(h(x)≠y)E(h;\mathcal{D})=P_{\bm x\sim\mathcal{D}}(h(\bm x)≠y)E(h;D)=Px∼D(h(...

2019-04-03 19:15:19 1136

原创机器学习理论 | 周志华西瓜书第十一章：特征选择与稀疏学习

第十一章特征选择与稀疏学习此系列文章旨在提炼周志华《机器学习》的核心要点，不断完善中…11.1 子集搜索与评价1、一些概念特征/相关特征/无关特征冗余特征：所包含的信息能从其他特征中推演出来（多数时候不起作用，除去以减轻学习负担，但有时会降低学习任务的难度）2、特征选择的原因：减轻维数灾难，降低学习难度3、特征选择方法本质特征子集搜索机制(subset search)（贪心策...

2019-04-03 18:44:17 899

原创机器学习理论 | 周志华西瓜书第十章：降维与度量学习

第十章降维与度量学习此系列文章旨在提炼周志华《机器学习》的核心要点，不断完善中…10.1 k近邻学习1、描述常用的监督学习方法工作机制：给定测试集，基于某距离度量找出最靠近的k个样本，基于k个邻居的信息预测分类——投票法回归——平均法懒惰学习的代表2、懒惰学习与急切学习懒惰学习(lazy study)：没有显式训练过程，仅把样本保存，训练时间无开销，待收到测试样本后再...

2019-04-02 11:15:28 1472

原创机器学习理论 | 周志华西瓜书第九章：聚类

第九章聚类此系列文章旨在提炼周志华《机器学习》的核心要点，不断完善中…9.1 聚类任务无监督学习：训练样本标记位置，学习揭示内在规律，分类任务等前驱过程将数据集划分为若干互不相交的子集(簇：cluster)9.2 性能度量1、概念内相似度(intra-cluster similarity)簇间相似度(inter-cluster similarity)2、指标外部指标...

2019-04-01 20:15:01 1086

原创机器学习理论 | 周志华西瓜书第八章：集成学习

第八章集成学习8.1【个体与集成】1、集成学习的一般结构示意图个体学习器(individual learner)基学习器(base learner)同质(homogenous)集成：集成中只包含同种类型的个体学习器基学习器——同质集成中的个体学习器基学习算法(base learning algorithm)——相应的学习算法组建学习器(component learner)异质...

2019-03-20 09:14:19 914

原创机器学习理论 | 周志华西瓜书第七章：贝叶斯分类器

第七章贝叶斯分类器7.1【贝叶斯决策理论】1、期望损失(expected loss)：在样本x上的“条件风险”(conditional risk)具体算式：任务：最小化总体风险2、贝叶斯判定准则(Bayes decision rule)为最小化总体风险，只需在每个样本上选择那个能使条件风险R(c|x)最小的类别标记具体算式：h*(x)：贝叶斯最优分类器(Bayes optimal...

2019-03-20 09:13:20 1335

原创机器学习理论 | 周志华西瓜书第六章：支持向量机

第六章支持向量机6.1【间隔与支持向量】1、超平面(w,b)存在多个划分超平面将两类样本分开线性方程w：法向量，决定超平面方向b：位移项，决定超平面与原点之间的距离样本空间中任意点到超平面的距离2、支持向量(super vector)条件一：距离超平面最近的几个训练样本点条件二：使得右边任一式子的等号成立3、间隔(margin)两个一类支持向量到超平面的距离直和4、最大...

2019-03-20 09:12:27 829

原创机器学习理论 | 周志华西瓜书第五章：神经网络

第五章神经网络5.1【神经元模型】1、基本概念神经元(neuron)模型是神经网络最基本的成分阈值(threshold)，亦称bias2、M-P神经元模型图解激活函数(activation function)理想中的激活函数：阶跃函数将输入映射为输出值"0"或"1"典型的激活函数：Sigmoid函数(挤压函数 squashing function)将可能在激活范围内变化的输...

2019-03-20 09:11:27 842

原创机器学习理论 | 周志华西瓜书第四章：决策树

第四章决策树4.1【基本流程】1、概要决策树组成一个根节点：包含样本全集若干个内部节点：对应于一个属性测试若干个叶节点：对应于决策结果决策树的目的：为了产生一棵泛化能力强，即处理未见示例能力强的决策树遵循的策略：分而治之2、决策时学习基本算法4.2【划分选择】：如何选择最优划分属性0、原则：提高结点的纯度(purity)——结点所包含的样本尽可能属于同一类别1、信息增益(...

2019-03-20 09:09:31 506

空空如也

空空如也