自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(64)
  • 收藏
  • 关注

原创 Python数据可视化 | Visualization tricks using Seaborn (2)

Visualization tricks using Seaborn (2)In the process of making visual charts, we often need to deal with the relationship between numeric variables(N) and category variables©. Somethings we need to d...

2020-02-08 11:29:07 499

原创 Python数据可视化 | Visualization tricks using Seaborn (1)

Visualization tricks using Seaborn (1)In the process of making visual charts, we often need to deal with the relationship between numeric variables(N) and category variables©. Somethings we need to d...

2020-02-08 11:25:30 571

原创 Python数据可视化 | seaborn heatmap可视化模式亲测

seaborn heatmap可视化模式亲测利用heatmap绘制协方差矩阵是数据可视化中常见的操作,而对颜色的选取则是一种艺术了。在不同的场景下有可能我们需要不同的色调或者颜色的搭配。而seaborn中的heatmap函数为我们提供了便捷。Seaborn中有非常多的颜色选项可以选择,这里将效果一一亲测。数据如下:这里我们用最为简单的数据绘制协方差矩阵的图。import pandas as ...

2020-02-08 11:22:09 1635

原创 图像处理实践 | 水果图像的识别与分类

水果图像的识别与分类1 数据获取与数据集介绍数据来源:公开水果数据集fruit-360,包含几十种水果的彩色图片,图片格式为100*100像素,训练集中,每种水果都有上百张各种角度拍摄的照片。可以通过对图像的预处理、特征提取,并构建分类器对于水果照片进行分类。数据集可从Github上下载:https://github.com/Horea94/Fruit-Images-Dataset2 预处...

2020-02-08 11:12:54 25569 72

原创 图像处理实践 | 基于MNIST数据集的手写数字识别

基于MNIST数据集的手写数字识别1数据获取与数据集介绍数据来源:Kaggle Competition:Digit Recognizer, Learn computer vision fundamentals with the famous MNIST data.该数据集包含数万条手写数据的图像信息,目标是对于根据有标记的手写数据图像数据建模,从而对未标记的数据进行分类。该比赛是计算机视觉...

2020-02-08 11:06:39 2287 1

原创 Kaggle | IEEE Fraud Detection(Data Processing and Simplest Model)

IEEE Fraud Detection - Data Processing and Simplest ModelIn this section we will do some data cleaning jobs, which is necessary before we build our models.We have seen the distributions of all kinds...

2020-02-07 21:25:00 1182

原创 Kaggle | IEEE Fraud Detection(EDA)

IEEE Fraud Detection - EDA1 DescriptionIn this competition, you’ll benchmark machine learning models on a challenging large-scale dataset. The data comes from Vesta’s real-world e-commerce transacti...

2020-02-07 21:23:41 1219

原创 Kaggle | ASHRAE The first step(EDA with Python)

ASHRAE - The first step: EDA with PythonIn this competition we will develop models to predict the energy usage in each building. The dataset contains 1450+ buildings information. Different buildings ...

2020-02-07 21:16:51 804

原创 Kaggle | Santander Customer Transaction Prediction(EDA and Baseline)

Santander Customer Transaction Prediction: EDA and Baseline1 DescriptionAt Santander our mission is to help people and businesses prosper. We are always looking for ways to help our customers unders...

2020-02-07 20:55:48 1204

原创 深度学习基础 | Build the Neural Network with Pytorch from Scratch

Build the Neural Network with Pytorch from ScratchIn this article I summarize the constructing processes of different kinds of neural networks. By using the tools in Pytorch, you can build these neur...

2020-02-07 20:50:27 344

原创 深度学习基础 | Basic Usage of Pytorch

Basic Usage of PytorchIn this passage we summarize the basic usage of Pytorch. Pytorch is really convenient when we need to build a neural network and do all kinds of work in Deeplearning.import tor...

2020-02-07 20:45:09 223

原创 经典算法 | XGBoost、LightGBM、CatBoost比较

XGBoost、LightGBM、CatBoost比较1 概述在深度学习红极一时的情况下,boosting算法仍然有其用武之地,尤其在训练样本量较少、训练时间较短、缺乏调参先验等情况下,boosting算法仍然保持着其优势。kaggle比赛中boosting算法更是占据了大多数席位。本文总结了多篇文献和博客中对于三种算法的介绍,从多角度对这几种具有代表性的 boosting 算法进行对比,方便...

2020-02-05 10:43:47 6675 1

原创 经典算法 | The Parameters of XGBoost and LightGBM

The Parameters of XGBoost and LightGBM1 Parameters of XGBoostThere are three types of parameters that we need to focus on: General parameters, Booster parameters as well as Objective parameters.1....

2020-02-05 10:43:04 981

原创 经典算法 | Something about XGBoost

Something about XGBoostXGBoost is one of the most widely used machine learning algorithm. This passage talks about the main idea of XGBoost and my conprehension about the model.1 Background Knowledg...

2020-02-05 10:42:18 480

原创 模式识别 | PRML Chapter 10 Approximate Inference

PRML Chapter 10 Approximate Inference10.1 Variational InferenceFor observed variable X={x1,...,xN}X=\{x_1,...,x_N\}X={x1​,...,xN​} and latent Z={z1,...,zN}Z=\{z_1,...,z_N\}Z={z1​,...,zN​}. Our proba...

2020-02-05 10:35:46 478

原创 模式识别 | PRML Chapter 9 Mixture Models and EM

PRML Chapter 9 Mixture Models and EM9.1 K-means ClusteringConsider the problem of identifying groups or clusters of data points in a multidimensional space.To describe the assignment of data points...

2020-02-05 10:34:43 417

原创 模式识别 | PRML Chapter 8 Graphical Models

PRML Chapter 8 Graphical Models8.1 Bayesian NetworksA specific graph can make probabilistic statements for a broad class of distributions. We can writh the joint distribution in the form:p(a,b,c)=p...

2020-02-02 20:52:10 310

原创 模式识别 | PRML Chapter 7 Sparse Kernel Machines

PRML Chapter 7 Sparse Kernel Machines7.1 Maximum Margin ClassifiersThe two-class classification problem using linear models of the form:y(x)=wTϕ(x)+by(x) = w^{T}\phi(x) + by(x)=wTϕ(x)+bThe maximum...

2020-02-02 20:51:09 480

原创 模式识别 | PRML Chapter 6 Kernel Methods

PRML Chapter 6 Kernel MethodsFor models which are based on a fixed nonlinear feature space mapping ϕ(x)\phi(x)ϕ(x), the kernel function is given by the relation:k(x,x′)=ϕ(x)Tϕ(x′)k(x, x^{'}) = \phi(...

2020-02-02 20:50:28 329

原创 模式识别 | PRML Chapter 5 Neural Networks

PRML Chapter 5 Neural Networks5.1 Feed-forward Network FunctionsA network with one hidden layer may be the form like this:yk(x,w)=σ(∑j=1Mwkj2h(∑i=1Dwji1xi+wj01)+wk02)y_{k}(x, w) = \sigma\left( \sum...

2020-02-02 20:49:49 453

原创 模式识别 | PRML Chapter 4 Linear Models for Classification

PRML Chapter 4 Linear Models for Classification4.1 Discriminant Functions4.1.1 Two classesThe simplest representation of a linear discriminant function can be expressed as:y(x)=wTx+w0y(x) = w^{T}x...

2020-02-02 20:48:38 394

原创 模式识别 | PRML Chapter 3 Linear Models for Regression

PRML Chapter 3 Linear Models for Regression3.1 Linear Basis Function ModelsThe simplest linear model for regression is the form:y(x,w)=w0+∑j=1M−1wjϕj(x)y(x, w) = w_{0} + \sum_{j=1}^{M-1}w_{j}\phi_{...

2020-02-02 20:47:57 381

原创 模式识别 | PRML Chapter 2 Probability Distributions

PRML Chapter 2 Probability Distributions2.1 Binary Variablesbernoulli distribution: Bern(x∣μ)=μx(1−μ)1−xBern(x | \mu) = \mu^{x}(1-\mu)^{1-x}Bern(x∣μ)=μx(1−μ)1−xbinomial distribution: Bin(m∣N,μ)=N!...

2020-02-02 20:45:56 263

原创 模式识别 | PRML Chapter 1 Introduction

PRML Chapter 1 Introduction1.1 Example:Polynomial Curve FittingFor a simple regression problem, our goal is to use the training set to predict new value t^\hat{t}t^ for input variable x^\hat{x}x^. T...

2020-02-02 20:45:12 510

原创 模式识别 | PRML概览

PRML全书概览PRML全称Pattern Recognition and Machine Learning,个人认为这是机器学习领域中最好的书籍之一,全书的风格非常Bayesian,作者试图在贝叶斯框架下解释每一种机器学习模型。阅读起来有一定难度,不适合作为机器学习入门教材。然而这本书提供的贝叶斯视角有助于我们更为立体全面理解一些经典模型。全书分为十四个章节,这里我尽可能简要概述每个章节的主...

2020-02-02 20:43:54 1473

原创 Python机器学习 | 基础教程归纳(下)

此系列文章提炼《Python机器学习基础教程》最核心要点第四章 数据表示与特征工程一、分类变量1、One-Hot编码(虚拟变量)1)检查字符串编码的分类数据(可能有表示不同但是含义相同的数据:man、male等)print(data.gender.value_counts())2)利用get_dummies函数自动变换字符串和分类的列data_dummies=pd.get_dum...

2019-04-08 09:11:24 520

原创 Python机器学习 | 基础教程归纳(上)

此系列文章提炼《Python机器学习基础教程》最核心要点第一章 引言一、熟悉任务1、确定回答的问题2、表示成机器学习的问题3、收集的数据是否足够表示这类问题4、提取了哪些特征,能否实现正确预测5、如何衡量成功6、解决方案与研究或商业产品有哪些是互相影响的二、必要的工具三、基本操作1、观察数据1)训练测试集划分X_train,X_test,y_train,y_test...

2019-04-08 08:51:09 551

原创 机器学习理论 | 周志华西瓜书 第十六章:强化学习

第十六章 强化学习此系列文章旨在提炼周志华《机器学习》的核心要点,不断完善中…16.1 任务与奖赏通常使用马尔可夫决策过程(MDP)描述目的:找到能长期积累奖赏最大化策略长期奖赏方式T步积累奖赏:E[1T∑t=1Trt]\mathbb{E}[\frac 1 T\sum_{t=1}^Tr_t]E[T1​∑t=1T​rt​]γ折扣积累奖赏:E[∑t=0+∞γtrt+1]\mathbb...

2019-04-07 20:33:26 1233

原创 机器学习理论 | 周志华西瓜书 第十五章:规则学习

第十五章 规则学习此系列文章旨在提炼周志华《机器学习》的核心要点,不断完善中…15.1 基本概念规则:语义明确,能描述数据分布所隐含的客观规律或领域概念规则学习:从训练数据中学习一种能用于未见示例进行判别的规则优点:有更好的可解释性、有冲突可进行冲突消解15.2 序贯覆盖(分治策略)原因:规则学习的目标是产生一个能覆盖尽可能多的样例的规则集,最直接做法——序贯覆盖(逐条归纳)...

2019-04-07 20:11:24 952

原创 机器学习理论 | 周志华西瓜书 第十四章:概率图模型

第十四章 概率图模型此系列文章旨在提炼周志华《机器学习》的核心要点,不断完善中…14.1 隐马尔可夫模型1、概述机器学习最重要任务:根据一些已观察到的证据对感兴趣的未知变量进行估计和推测概率模型提供的描述框架——推断基于可观测变量推出未知变量的条件分布所关系变量集:Y;可观测变量集:O;其他变量集:R生成式模型:对联合分布P(Y,R,O)P(Y,R,O)P(Y,R,O)...

2019-04-04 21:23:22 1043

原创 机器学习理论 | 周志华西瓜书 第十三章:半监督学习

第十三章 半监督学习此系列文章旨在提炼周志华《机器学习》的核心要点,不断完善中…13.1 未标记样本1、一些概念主动学习(active learning):使用尽量少的query获得经良好的性能半监督学习(semi-supervised learning):让学习器不依赖外界交互,自动利用未标记样本来提升学习性能2、一些假设聚类假设(cluster assumption):假设数据...

2019-04-04 18:40:15 960

原创 机器学习理论 | 周志华西瓜书 第十二章:计算学习理论

第十二章 计算学习理论此系列文章旨在提炼周志华《机器学习》的核心要点,不断完善中…12.1 基础知识1、概述目的:分析学习任务的困难本质,为学习算法提供理论保证)2、一些定义令h为从X到Y的映射,h的泛化误差:E(h;D)=Px∼D(h(x)≠y)E(h;\mathcal{D})=P_{\bm x\sim\mathcal{D}}(h(\bm x)≠y)E(h;D)=Px∼D​(h(...

2019-04-03 19:15:19 999

原创 机器学习理论 | 周志华西瓜书 第十一章:特征选择与稀疏学习

第十一章 特征选择与稀疏学习此系列文章旨在提炼周志华《机器学习》的核心要点,不断完善中…11.1 子集搜索与评价1、一些概念特征/相关特征/无关特征冗余特征:所包含的信息能从其他特征中推演出来(多数时候不起作用,除去以减轻学习负担,但有时会降低学习任务的难度)2、特征选择的原因:减轻维数灾难,降低学习难度3、特征选择方法本质特征子集搜索机制(subset search)(贪心策...

2019-04-03 18:44:17 760

原创 机器学习理论 | 周志华西瓜书 第十章:降维与度量学习

第十章 降维与度量学习此系列文章旨在提炼周志华《机器学习》的核心要点,不断完善中…10.1 k近邻学习1、描述常用的监督学习方法工作机制:给定测试集,基于某距离度量找出最靠近的k个样本,基于k个邻居的信息预测分类——投票法回归——平均法懒惰学习的代表2、懒惰学习与急切学习懒惰学习(lazy study):没有显式训练过程,仅把样本保存,训练时间无开销,待收到测试样本后再...

2019-04-02 11:15:28 1306

原创 机器学习理论 | 周志华西瓜书 第九章:聚类

第九章 聚类此系列文章旨在提炼周志华《机器学习》的核心要点,不断完善中…9.1 聚类任务无监督学习:训练样本标记位置,学习揭示内在规律,分类任务等前驱过程将数据集划分为若干互不相交的子集(簇:cluster)9.2 性能度量1、概念内相似度(intra-cluster similarity)簇间相似度(inter-cluster similarity)2、指标外部指标...

2019-04-01 20:15:01 809

原创 机器学习理论 | 周志华西瓜书 第八章:集成学习

第八章 集成学习8.1【个体与集成】1、集成学习的一般结构示意图个体学习器(individual learner)基学习器(base learner)同质(homogenous)集成:集成中只包含同种类型的个体学习器基学习器——同质集成中的个体学习器基学习算法(base learning algorithm)——相应的学习算法组建学习器(component learner)异质...

2019-03-20 09:14:19 779

原创 机器学习理论 | 周志华西瓜书 第七章:贝叶斯分类器

第七章 贝叶斯分类器7.1【贝叶斯决策理论】1、期望损失(expected loss):在样本x上的“条件风险”(conditional risk)具体算式:任务:最小化总体风险2、贝叶斯判定准则(Bayes decision rule)为最小化总体风险,只需在每个样本上选择那个能使条件风险R(c|x)最小的类别标记具体算式:h*(x):贝叶斯最优分类器(Bayes optimal...

2019-03-20 09:13:20 1147

原创 机器学习理论 | 周志华西瓜书 第六章:支持向量机

第六章 支持向量机6.1【间隔与支持向量】1、超平面(w,b)存在多个划分超平面将两类样本分开线性方程w:法向量,决定超平面方向b:位移项,决定超平面与原点之间的距离样本空间中任意点到超平面的距离2、支持向量(super vector)条件一:距离超平面最近的几个训练样本点条件二:使得右边任一式子的等号成立3、间隔(margin)两个一类支持向量到超平面的距离直和4、最大...

2019-03-20 09:12:27 714

原创 机器学习理论 | 周志华西瓜书 第五章:神经网络

第五章 神经网络5.1【神经元模型】1、基本概念神经元(neuron)模型是神经网络最基本的成分阈值(threshold),亦称bias2、M-P神经元模型图解激活函数(activation function)理想中的激活函数:阶跃函数将输入映射为输出值"0"或"1"典型的激活函数:Sigmoid函数(挤压函数 squashing function)将可能在激活范围内变化的输...

2019-03-20 09:11:27 731

原创 机器学习理论 | 周志华西瓜书 第四章:决策树

第四章 决策树4.1【基本流程】1、概要决策树组成一个根节点:包含样本全集若干个内部节点:对应于一个属性测试若干个叶节点:对应于决策结果决策树的目的:为了产生一棵泛化能力强,即处理未见示例能力强的决策树遵循的策略:分而治之2、决策时学习基本算法4.2【划分选择】:如何选择最优划分属性0、原则:提高结点的纯度(purity)——结点所包含的样本尽可能属于同一类别1、信息增益(...

2019-03-20 09:09:31 424

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除