自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 Kaggle比赛记录(四)Instant Gratification

       这应该是找到工作前的最后一个kaggle比赛经历了,最终成绩还可以,排名45/1839,在前3%范围内。其实kaggle的比赛只要认真去做了,基本上拿个前10%不是什么难事。       选择了Instant Gratification作为我们的第三场比赛,仅仅是因为它是当时kaggle的人气比赛中时间...

2019-06-23 16:41:56 2379 4

原创 Python绘制用于学术论文投稿的黑白图片

       最近这段时间一连投递了好几篇论文,全部都是黑白印刷的期刊,费了一些功夫把原本的彩图改成了黑白的,发现黑白图也没有想象中的那么难看,朴素的别具一格!下面是具体的代码,由于论文数据需要保密,作图的数据是用numpy随机生成的。折线图       首先是最简单的折线图,每条线的color都是黑色,用line...

2020-01-17 17:10:04 3401

原创 个人面试问答题知识库(二)基础模型篇

       上一篇主要包含了部分面试中的常见问题,在我准备知识库期间,腾讯发起了一场突如其来的面试,让我转变了思路,因此有了这一篇的内容。在面试时,面试官没有拘泥于一些被问烂了的面试题,而是一个个的让我介绍各种模型以及它们的优缺点。具体问法类似于,“LR知道吗”,“介绍一下”,“LR有哪些优点”,“LR有哪些缺点”,“RF知道吗”,“介绍一下”,等等。&...

2019-10-07 16:39:19 580

原创 个人面试问答题知识库(一)百面机器学习篇

       在前段时间的校招应聘经历中,我发现好几次面试官问的问题基本上都回答上来了,但最后还是没有通过面试,这固然和自己是非科班、没有算法相关的实习经历有关,但也跟自己的回答没有亮点不无关系。在前者硬实力短期没有办法提高的情况下,我开始思考如何提升自己的软实力,让自己对同样问题的回答跟别人不同,更有逻辑性和广度,最好能包含自己的理解,或许算是对积累时间不...

2019-09-23 20:40:53 2298

原创 个人学习笔记(十八)LightGBM与XGBoost的区别

       在LightGBM与XGBoost的相关资料里,我发现很少有博客能把它们的重要区别完整罗列出来,要么只介绍了GOSS、EFB,要么只涉及到leaf-wise。所以在这里我把这些资料整合起来,尽量用简短的话语把LightGBM与XGBoost的重要区别叙述出来,内容包含了我自己的理解,不一定正确。一、GOSS与EFB   ...

2019-08-11 19:41:18 681

原创 个人学习笔记(十七)主成分分析

       一直都抽不出时间写第十七篇读书笔记,直到前两天去面PDD被问到主成分分析的推导,完全想不起来的同时也决定回来把PCA这个坑给填上,顺便加深一下记忆。主成分分析(principal component analysis, PCA)利用正交变换把由线性相关变量表示的观测数据转换为少数几个由线性无关变量表示的数据,这些线性无关的变量被称为主成分。一...

2019-08-05 20:41:01 491

原创 个人学习笔记(十六)奇异值分解

       奇异值分解(singular value decomposition, SVD)是一种矩阵因子分解方法。任意一个m×nm\times nm×n的矩阵都可以表示为三个矩阵的乘积(因子分解)形式,矩阵的奇异值分解一定存在,但不唯一。奇异值分解可以看作是矩阵数据压缩的一种方法,这种近似是平方损失意义下的最优近似。一、奇异值分解的定义与性质&nbs...

2019-07-23 15:22:26 1020

原创 个人学习笔记(十五)聚类方法

       聚类方法是无监督学习方法,针对给定的样本,依据它们特征的相似度或距离,将其归并到若干个“类”或“簇”中。本次介绍两种最常用的聚类算法:层次聚类(hierarchical clustering)和kkk均值聚类(kkk-means clustering)。一、聚类的基本概念       聚类的核心概念是...

2019-07-21 16:24:12 506 1

原创 个人学习笔记(十四)高斯混合模型中的EM算法

       因为在第三次比赛中用到了高斯混合模型GMM,这里根据我自己的理解对GMM内部的EM算法做一个简要的复习。EM算法概述       先来回顾一下EM算法。EM算法是通过迭代求L(θ)=logP(Y∣θ)L(\theta)=logP(Y|\theta)L(θ)=logP(Y∣θ)的极大似然估计的方法,即我...

2019-07-04 18:31:37 429

原创 Kaggle比赛记录(三)LANL Earthquake Prediction

       第二次参加Kaggle,是有关地震预测的题目。这一次比赛的成绩并不出彩,       这场比赛的数据集十分庞大,

2019-06-07 16:41:23 1618 3

原创 个人学习笔记(十三)条件随机场

       条件随机场(conditional random field, CRF)是给定一组输入随机变量条件下,另一组输出随机变量的条件概率分布模型,这里仅讨论它在标注问题的应用,因此主要讲述线性链(linear chain)条件随机场。一、概率无向图模型       在介绍条件随机场之前,需要了解概率无向图模...

2019-05-21 19:37:24 382

原创 个人学习笔记(十二)隐马尔科夫模型

       隐马尔科夫模型(hidden Markov model, HMM)是用于标注问题的统计学习模型,属于生成模型。一、隐马尔科夫模型的基本概念       隐藏的马尔科夫链随机生成的状态的序列,称为状态序列(state sequence);每个状态生成一个观测,由此产生观测的随机序列,称为观测序列(obs...

2019-05-18 10:54:02 295

原创 个人学习笔记(十一)EM算法及其推广

       当模型含有隐变量时,无法使用极大似然估计法或贝叶斯估计法估计模型参数,这时适合使用EM算法。EM算法就是含有隐变量的概率模型参数的极大似然估计法,或极大后验概率估计法。EM算法的每次迭代由两步组成:E步,求期望(expectation);M步,求极大(maximization)。所以这一算法称为期望极大算法(expectation maximi...

2019-05-15 20:51:36 343

原创 个人学习笔记(十)提升方法

       在分类问题中,提升(boosting)方法通过改变训练样本的权重,学习多个分类器并将其线型组合,提高分类的性能。1、提升方法AdaBoost算法       对分类问题而言,给定一个训练样本集,求比较粗糙的分类规则(弱分类器)要比求精确的分类规则(强分类器)容易得多。提升方法就是从弱分类器出发,组合这...

2019-05-12 16:24:59 328

原创 Kaggle比赛记录(二)Don't overfit!Ⅱ

       昨天终于出了比赛结果,拿到了19/2330的好成绩,第一次参加Kaggle能进前1%我已经十分满意了。比赛前期读Kernel区代码所做的一些记录在这里,接下来写一下本人比赛用的具体方法以及心路历程吧。       首先简要介绍一下这个赛题,题目名字是"Don’t overfit!Ⅱ",训练集有250个样...

2019-05-10 10:05:27 1147

原创 Kaggle比赛记录(一)Don't overfit!Ⅱ

       首次参加Kaggle比赛,把半个月前写的一些东西记录在博客里。我参加的这个比赛十分有趣,它是个二分类问题,但给出的训练数据只有250个,需要用这些样本训练模型,去预测19750个测试数据,此外可用的特征有300个之多。       前期基本完全泡在Kernels区了,看着别人的代码,学习使用各种模型的同...

2019-05-06 19:18:17 2804

原创 个人学习笔记(九)非线性支持向量机与SMO算法

       前面两篇文章讨论的都是线性分类问题,但有时分类问题是非线性的,这时可以使用非线性支持向量机。1、核技巧       核技巧应用到支持向量机,其基本想法就是通过一个非线性变换将输入空间(欧式空间RnR^nRn或离散集合)对应于一个特征空间(希尔伯特空间HHH),然后在特征空间里用线性分类学习方法学习分类...

2019-05-05 16:22:58 422

原创 个人学习笔记(八)线性支持向量机与软间隔最大化

       在上一篇文章中介绍了线性可分支持向量机,但如果训练数据不是严格线性可分的,线性可分支持向量机便不适用了,需要修改硬间隔最大化,使其成为软间隔最大化。1、线性支持向量机       给定一个特征空间上的训练数据集T={(x1,y1),(x2,y2),⋯ ,(xN,yN)}T...

2019-05-04 08:45:27 373

原创 个人学习笔记(七)线性可分支持向量机与硬间隔最大化

       支持向量机(support vector machines, SVM)是一种二类分类模型,它的学习策略是间隔最大化,可形式化为一个求解凸二次规划(convex quadratic programming)的问题,也等价于正则化的合页损失函数最小化问题。1、线性可分支持向量机与硬间隔最大化       ...

2019-05-03 08:59:18 697 2

原创 个人学习笔记(六)逻辑斯谛回归与最大熵模型

       逻辑斯谛回归(logistic regression)与最大熵模型(maximum entropy model)都属于对数线性模型。1、逻辑斯谛回归模型       首先介绍逻辑斯谛分布(logistic distribution),设XXX是连续随机变量,XXX服从逻辑斯谛分布是指XXX具有下列分布...

2019-04-30 19:35:16 372

原创 个人学习笔记(五)决策树

       决策树(decision tree)是一种基本的分类与回归算法,它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。决策树学习包括3个步骤:特征选择、决策树的生成和决策树的剪枝。这些思想主要来源于ID3算法、C4.5算法以及CART算法。1、决策树模型与学习      &n...

2019-04-27 14:59:01 342

原创 个人学习笔记(四)朴素贝叶斯法

       朴素贝叶斯(naive Bayes)法是基于贝叶斯定理与特征条件独立假设的分类方法。1、朴素贝叶斯法的学习与分类       已知训练数据集T={(x1,y1),(x2,y2),⋯ ,(xN,yN)}T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y...

2019-04-26 16:32:08 317

原创 个人学习笔记(三)k近邻法

       kkk近邻法(kkk-nearest neighbor, kkk-NN)是一种基本分类与回归方法,《统计学习方法》只讨论分类问题中的kkk近邻法。kkk近邻法假设给定一个训练数据集,其中的实例类别已定,分类时根据其kkk个最近邻的训练实例的类别,通过多数表决等方式进行预测。1、kkk近邻算法      &nbs...

2019-04-25 10:10:41 287

原创 个人学习笔记(二)感知机

1、感知机模型       假设输入空间是X∈RnX\in R^nX∈Rn,输出空间是Y={+1,−1}Y=\{+1,-1\}Y={+1,−1},由输入空间到输出空间的如下函数称为感知机。f(x)=sign(w⋅x+b)f(x)=sign(w\cdot x+b)f(x)=sign(w⋅x+b)       其中w∈...

2019-04-24 18:11:02 432

原创 个人学习笔记(一)统计学习算法概论

       本系列内容基本来源于李航的《统计学习方法》,最近在二刷这本书,我将会把重要的知识点、推导过程根据自己的理解记录在博客中,作为自己的学习笔记。对于《统计学习方法》没有涉及到的内容,例如贝叶斯估计、XGBoost等,计划之后进行补充。若有错误,欢迎指出。1、统计学习       统计学习也叫统计机器学习,...

2019-04-24 12:03:13 445

原创 使用keras绘制网络结构图时出现'`pydot` failed to call GraphViz.'错误的解决办法

初次尝试绘制网络结构图笔者使用的是Anaconda,因此在Anaconda Prompt中安装了pydot以及graphviz(pip install pydot & pip install graphviz)后 ,打开Python绘制网络图,结果程序报错了。第二次尝试找到了一篇博客,发现原来还需要手动下载Graphviz,不只是pip一下就可以的。于是参考了下面这篇博文,下载安...

2019-03-07 20:19:06 663 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除