万carp
码龄11年
关注
提问 私信
  • 博客:26,589
    26,589
    总访问量
  • 26
    原创
  • 1,306,864
    排名
  • 22
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2014-03-04
博客简介:

万carp的博客

查看详细资料
个人成就
  • 获得33次点赞
  • 内容获得12次评论
  • 获得109次收藏
创作历程
  • 1篇
    2020年
  • 25篇
    2019年
成就勋章
TA的专栏
  • 个人学习笔记
    18篇
  • 个人面试问答题知识库
    2篇
  • Kaggle比赛之路
    4篇
兴趣领域 设置
  • 数据结构与算法
    排序算法推荐算法
  • 人工智能
    scikit-learn聚类集成学习分类回归
创作活动更多

仓颉编程语言体验有奖征文

仓颉编程语言官网已上线,提供版本下载、在线运行、文档体验等功能。为鼓励更多开发者探索仓颉编程语言,现诚邀各位开发者通过官网在线体验/下载使用,参与仓颉体验有奖征文活动。

368人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Python绘制用于学术论文投稿的黑白图片

       最近这段时间一连投递了好几篇论文,全部都是黑白印刷的期刊,费了一些功夫把原本的彩图改成了黑白的,发现黑白图也没有想象中的那么难看,朴素的别具一格!下面是具体的代码,由于论文数据需要保密,作图的数据是用numpy随机生成的。折线图       首先是最简单的折线图,每条线的color都是黑色,用line...
原创
发布博客 2020.01.17 ·
3828 阅读 ·
5 点赞 ·
0 评论 ·
58 收藏

个人面试问答题知识库(二)基础模型篇

       上一篇主要包含了部分面试中的常见问题,在我准备知识库期间,腾讯发起了一场突如其来的面试,让我转变了思路,因此有了这一篇的内容。在面试时,面试官没有拘泥于一些被问烂了的面试题,而是一个个的让我介绍各种模型以及它们的优缺点。具体问法类似于,“LR知道吗”,“介绍一下”,“LR有哪些优点”,“LR有哪些缺点”,“RF知道吗”,“介绍一下”,等等。&...
原创
发布博客 2019.10.07 ·
623 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

个人面试问答题知识库(一)百面机器学习篇

       在前段时间的校招应聘经历中,我发现好几次面试官问的问题基本上都回答上来了,但最后还是没有通过面试,这固然和自己是非科班、没有算法相关的实习经历有关,但也跟自己的回答没有亮点不无关系。在前者硬实力短期没有办法提高的情况下,我开始思考如何提升自己的软实力,让自己对同样问题的回答跟别人不同,更有逻辑性和广度,最好能包含自己的理解,或许算是对积累时间不...
原创
发布博客 2019.09.23 ·
2399 阅读 ·
5 点赞 ·
0 评论 ·
17 收藏

个人学习笔记(十八)LightGBM与XGBoost的区别

       在LightGBM与XGBoost的相关资料里,我发现很少有博客能把它们的重要区别完整罗列出来,要么只介绍了GOSS、EFB,要么只涉及到leaf-wise。所以在这里我把这些资料整合起来,尽量用简短的话语把LightGBM与XGBoost的重要区别叙述出来,内容包含了我自己的理解,不一定正确。一、GOSS与EFB   ...
原创
发布博客 2019.08.11 ·
748 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

个人学习笔记(十七)主成分分析

       一直都抽不出时间写第十七篇读书笔记,直到前两天去面PDD被问到主成分分析的推导,完全想不起来的同时也决定回来把PCA这个坑给填上,顺便加深一下记忆。主成分分析(principal component analysis, PCA)利用正交变换把由线性相关变量表示的观测数据转换为少数几个由线性无关变量表示的数据,这些线性无关的变量被称为主成分。一...
原创
发布博客 2019.08.05 ·
571 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

个人学习笔记(十六)奇异值分解

       奇异值分解(singular value decomposition, SVD)是一种矩阵因子分解方法。任意一个m×nm\times nm×n的矩阵都可以表示为三个矩阵的乘积(因子分解)形式,矩阵的奇异值分解一定存在,但不唯一。奇异值分解可以看作是矩阵数据压缩的一种方法,这种近似是平方损失意义下的最优近似。一、奇异值分解的定义与性质&nbs...
原创
发布博客 2019.07.23 ·
1149 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

个人学习笔记(十五)聚类方法

       聚类方法是无监督学习方法,针对给定的样本,依据它们特征的相似度或距离,将其归并到若干个“类”或“簇”中。本次介绍两种最常用的聚类算法:层次聚类(hierarchical clustering)和kkk均值聚类(kkk-means clustering)。一、聚类的基本概念       聚类的核心概念是...
原创
发布博客 2019.07.21 ·
562 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

个人学习笔记(十四)高斯混合模型中的EM算法

       因为在第三次比赛中用到了高斯混合模型GMM,这里根据我自己的理解对GMM内部的EM算法做一个简要的复习。EM算法概述       先来回顾一下EM算法。EM算法是通过迭代求L(θ)=logP(Y∣θ)L(\theta)=logP(Y|\theta)L(θ)=logP(Y∣θ)的极大似然估计的方法,即我...
原创
发布博客 2019.07.04 ·
467 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Kaggle比赛记录(四)Instant Gratification

       这应该是找到工作前的最后一个kaggle比赛经历了,最终成绩还可以,排名45/1839,在前3%范围内。其实kaggle的比赛只要认真去做了,基本上拿个前10%不是什么难事。       选择了Instant Gratification作为我们的第三场比赛,仅仅是因为它是当时kaggle的人气比赛中时间...
原创
发布博客 2019.06.23 ·
2522 阅读 ·
6 点赞 ·
4 评论 ·
4 收藏

Kaggle比赛记录(三)LANL Earthquake Prediction

       第二次参加Kaggle,是有关地震预测的题目。这一次比赛的成绩并不出彩,       这场比赛的数据集十分庞大,
原创
发布博客 2019.06.07 ·
1717 阅读 ·
4 点赞 ·
3 评论 ·
7 收藏

个人学习笔记(十三)条件随机场

       条件随机场(conditional random field, CRF)是给定一组输入随机变量条件下,另一组输出随机变量的条件概率分布模型,这里仅讨论它在标注问题的应用,因此主要讲述线性链(linear chain)条件随机场。一、概率无向图模型       在介绍条件随机场之前,需要了解概率无向图模...
原创
发布博客 2019.05.21 ·
423 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

个人学习笔记(十二)隐马尔科夫模型

       隐马尔科夫模型(hidden Markov model, HMM)是用于标注问题的统计学习模型,属于生成模型。一、隐马尔科夫模型的基本概念       隐藏的马尔科夫链随机生成的状态的序列,称为状态序列(state sequence);每个状态生成一个观测,由此产生观测的随机序列,称为观测序列(obs...
原创
发布博客 2019.05.18 ·
319 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

个人学习笔记(十一)EM算法及其推广

       当模型含有隐变量时,无法使用极大似然估计法或贝叶斯估计法估计模型参数,这时适合使用EM算法。EM算法就是含有隐变量的概率模型参数的极大似然估计法,或极大后验概率估计法。EM算法的每次迭代由两步组成:E步,求期望(expectation);M步,求极大(maximization)。所以这一算法称为期望极大算法(expectation maximi...
原创
发布博客 2019.05.15 ·
383 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

个人学习笔记(十)提升方法

       在分类问题中,提升(boosting)方法通过改变训练样本的权重,学习多个分类器并将其线型组合,提高分类的性能。1、提升方法AdaBoost算法       对分类问题而言,给定一个训练样本集,求比较粗糙的分类规则(弱分类器)要比求精确的分类规则(强分类器)容易得多。提升方法就是从弱分类器出发,组合这...
原创
发布博客 2019.05.12 ·
355 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Kaggle比赛记录(二)Don't overfit!Ⅱ

       昨天终于出了比赛结果,拿到了19/2330的好成绩,第一次参加Kaggle能进前1%我已经十分满意了。比赛前期读Kernel区代码所做的一些记录在这里,接下来写一下本人比赛用的具体方法以及心路历程吧。       首先简要介绍一下这个赛题,题目名字是"Don’t overfit!Ⅱ",训练集有250个样...
原创
发布博客 2019.05.10 ·
1376 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

Kaggle比赛记录(一)Don't overfit!Ⅱ

       首次参加Kaggle比赛,把半个月前写的一些东西记录在博客里。我参加的这个比赛十分有趣,它是个二分类问题,但给出的训练数据只有250个,需要用这些样本训练模型,去预测19750个测试数据,此外可用的特征有300个之多。       前期基本完全泡在Kernels区了,看着别人的代码,学习使用各种模型的同...
原创
发布博客 2019.05.06 ·
3040 阅读 ·
1 点赞 ·
0 评论 ·
8 收藏

个人学习笔记(九)非线性支持向量机与SMO算法

       前面两篇文章讨论的都是线性分类问题,但有时分类问题是非线性的,这时可以使用非线性支持向量机。1、核技巧       核技巧应用到支持向量机,其基本想法就是通过一个非线性变换将输入空间(欧式空间RnR^nRn或离散集合)对应于一个特征空间(希尔伯特空间HHH),然后在特征空间里用线性分类学习方法学习分类...
原创
发布博客 2019.05.05 ·
452 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

个人学习笔记(八)线性支持向量机与软间隔最大化

       在上一篇文章中介绍了线性可分支持向量机,但如果训练数据不是严格线性可分的,线性可分支持向量机便不适用了,需要修改硬间隔最大化,使其成为软间隔最大化。1、线性支持向量机       给定一个特征空间上的训练数据集T={(x1,y1),(x2,y2),⋯ ,(xN,yN)}T...
原创
发布博客 2019.05.04 ·
410 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

个人学习笔记(七)线性可分支持向量机与硬间隔最大化

       支持向量机(support vector machines, SVM)是一种二类分类模型,它的学习策略是间隔最大化,可形式化为一个求解凸二次规划(convex quadratic programming)的问题,也等价于正则化的合页损失函数最小化问题。1、线性可分支持向量机与硬间隔最大化       ...
原创
发布博客 2019.05.03 ·
729 阅读 ·
1 点赞 ·
2 评论 ·
0 收藏

个人学习笔记(六)逻辑斯谛回归与最大熵模型

       逻辑斯谛回归(logistic regression)与最大熵模型(maximum entropy model)都属于对数线性模型。1、逻辑斯谛回归模型       首先介绍逻辑斯谛分布(logistic distribution),设XXX是连续随机变量,XXX服从逻辑斯谛分布是指XXX具有下列分布...
原创
发布博客 2019.04.30 ·
409 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏
加载更多