自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Yongfeng's Blog

向竞争挑战,向压力挑战,更要向自己挑战

  • 博客(79)
  • 收藏
  • 关注

原创 Latex 自定义参考文献格式(配置 bst)

我们在提交手稿时只需要照着期刊给定的模板写即可,但有些出版社在初稿提交和终稿出版时会给出不同的模板,这种情况下,论文很难完成一模一样的表现形式。为了克服这一困难,就不得不从 Latex 底层库开始摸索,这篇博客就从参考文献格式将起,我们通过个性化设置 bst 文件来控制参考文献格式。

2019-01-19 17:50:18 67310 15

原创 CNF 合取范式

CNF 是合取范式的简称,是可满足问题中比较重要的概念。在实际应用中,我们一般将约束写成 CNF 范式的格式,然后通过求解器 Solver 对其进行求解。因此 CNF 可以理解为一种问题约束的表现形式。 本文对 CNF 的基本概念,存储形式,及其应用做一点简要的介绍。

2018-09-30 01:29:56 33786 3

原创 Wilcoxon 检验之 rank-sum 与 signed-rank

Frank Wilcoxon 是美国的统计学家,终其一生最著名的就是提出了 2 个非参假设检验方法,即 秩和检验 (Wilcoxon rank-sum test) 和 符号秩检验 (wilcoxon signed-rank test)。本文简单的对比总结了两种方法的用法,区别和实现。

2018-08-31 18:26:06 59179 37

原创 两遍读懂支持向量机 SVM (一些细节)

0. 理解 SVM 系列Step-1. 两遍读懂支持向量机 SVM (软硬 SVM)Step-2. 两遍读懂支持向量机 SVM (Kernel SVM)Step-3. 两遍读懂支持向量机 SVM (一些细节)1. 从原问题到对偶问题SVM 的核心优化思想是间隔最大化。对于训练集 {(x1,y1),(x2,y2),..,(xm,ym)}\{(x_1,y_1), (x_2,y_2),.., (x_m,y_m)\}{(x1​,y1​),(x2​,y2​),..,(xm​,ym​)} 而言,SVM 要找

2021-03-07 16:03:27 456

原创 Java 对象排序完整版

前几天在 LeetCode 刷题的时候,遇到了利用 Arrays.sort() 或 Collections.sort() 来对 Java 对象进行排序的需求,于是想较详细地总结一下 Java 对象的排序实现方法,这些方法能让我们的编程更快捷。在 Java 中,基本使用两种方法,即 Comparator 和 Comparable 接口,来完成基本甚至稍微复杂一点的排序的任务。当然,面对不同的数据结构,如数组(Array)、集合(Set)或映射(Map),排序的实现方式稍有不同。要排序的对象本文的任务就是

2020-11-24 20:54:43 6508

原创 PMD (别向报信者开火)

PMD 是一款非常实用的 **跨语言静态代码分析工具** (Cross-language Static Code Analyzer),它能运行于不同平台且实用简单。PMD 与其他代码分析工具最大的不同在于它不用通过编译过程(即 静态),这样能让分析者更能聚焦到代码本身的特点,而不用担心代码是否编译成功。

2020-08-30 22:51:40 1963

原创 循环神经网络 (处理时序型数据)

循环神经网络(Recurrent Neural Network, RNN)是一种处理时序型输入的神经网络。它被广泛应用在语音识别、机器翻译、人名识别、文本生成等任务上。RNN 存在多种变体,如 LSTM,GRU,BRNN,深层 RNN 等,这些网络能够较好的提升 RNN 在不同问题上的效率和效果。

2020-08-09 17:38:37 7782 1

原创 卷积神经网络 (GoogLeNet 的灵感)

GoogLeNet 是非常具有代表性的卷积神经网络,在 2014 年 ImageNet 挑战赛(图片分类)上夺取第一名桂冠1。GoogLeNet 不同于之前的 AlexNet,LeNet 或 VGG,它的设计更加颠覆传统。整个网络只有 22 层,但训练参数只有 500 万个,是 AlexNet 的十分之一。ImageNet. “Large Scale Visual Recognition Challenge 2014.” Link ↩︎

2020-08-05 15:42:00 1279 1

原创 卷积神经网络 (为什么是卷积?)

卷积神经网络(Conventional Neural Network, CNN)是深度学习的重要算法之一,常常应用在计算机视觉问题中,如图像分类和目标检测等。CNN 能够解决传统神经网络参数过多和丢失结果信息的缺点,这也人们选择 CNN 的主要原因。

2020-08-04 18:20:34 3271 2

原创 到底谁是异常 (多元高斯分布异常点检测)

异常点检测 (Outlier Detection) 相信大家并不陌生,它是无监督学习的重要应用之一,它的主要任务是从一些列无标签的样本中找到某些 “与众不同的” 的样本 (异常点 Outlier),这些样本与大部分样本 (正常点 Normal) 的分布“格格不入”。这篇文章主要介绍基于独立高斯分布 (Gaussian distribution) 和多元高斯分布 (Multi-variable Ga...

2020-04-26 10:59:38 2495

原创 找一棵树 (决策树 Decision Tree)

决策树 (Desicion Tree) 算法是机器学习的经典分类方法之一,它通过构造一棵具有决策能力的树来对样本进行分类。在这棵树当中,中间节点代表一个个特征,分支代表着按照对应节点划分样本的结果,终节点代表样本最终的类别。

2020-04-23 12:13:00 805

原创 两遍读懂支持向量机 SVM (Kernel SVM)

Kernel SVM 则是用来求解线性不可分的分类问题的。顾名思义,Kernel SVM 利用 核函数 (Kernel function) 将样本从低维空间 (输入空间) 映射到高维空间 (特征空间) 来进行线性划分。既然低维空间无法线性分割,那我们就将样本转换到高维空间进行线性分割吧。

2020-04-21 13:08:42 5408

原创 两遍读懂支持向量机 SVM (软硬 SVM)

支持向量机 (Support Vector Machine,SVM),也成为最大边界分类器,是上世纪 90 年代发明的性能优异的二元分类器。支持向量机的旨在找到一个合适的超平面使得其决策平面间的间距最大化。

2020-04-20 20:38:01 2715

原创 再读线性回归 Linear Regression (随机梯度下降)

在实际应用线性回归时,算法的时间复杂度随着样本个数的增多而增大。当样本个数非常大时,每次迭代的计算量将非常大,甚至普通计算机内存都无法存储这么多的数据。为此,人们提出了随机梯度下降 (Stochastic Gradient Descent) 和 小批量梯度下降 (Mini-batch Gradient Descent) 的方法。这两个方法在每次迭代过程中,使用一个或少数样本来计算代价和参数,实践证明他们能极大的减少计算量且较快的进行收敛。

2020-04-16 09:43:10 1420

原创 再读线性回归 Linear Regression (逻辑回归)

逻辑回归(Logistic Regression)算法将线性回归模型运用在分类问题上。简单的来说,逻辑回归仅仅是将线性回归的输出值做了一定的处理( 即 Sigmoid 或 Logisitc 函数),并设置一个阈值。当预测的输出值大于或等于这个阈值时,将样本分为一类;当预测的输出与之小于这个阈值时,将样本分为另一类。

2020-03-14 17:35:10 2995 1

原创 再读线性回归 Linear Regression (最小二乘法)

最小二乘法的核心思想直接计算出使得代价函数的梯度(偏导数)为零的参数向量。其优点就是不用一步步的调整参数,而是直接求解出的最优的参数。

2020-03-04 22:23:31 1436

原创 再读线性回归 Linear Regression (过拟合问题)

过拟合的一般理解是在训练集上拟合的很好,但是在测试集上预测结果很差。总的来讲,过拟合问题反映出模型的泛化能力的不足。在实际开发中,我们更希望提升出来的模型在测试集上的性能(泛化能力),而不是一味的拟合现有的训练集。

2020-03-02 15:45:28 2857

原创 再读线性回归 Linear Regression

线性回归(Linear Regression)是机器学习中的基本回归方法之一(其他的类似岭回归,多项式回归都是以之为基础)。简单的来讲,线性回归通过构造一个带有参数的多项式来预测新样本的值。

2020-03-01 21:22:37 912

原创 Git 爬坑 - 建立远程仓库

Git 爬坑开篇-建立远程仓库。建立远程仓库的核心在于建立本地与 git 服务器的 ssh 连接,我们通过 git init 初始化本地仓库后,需要将本地生成的 rsa 秘钥粘贴到 github 账户底下来确保一致性,稍有不慎,Permission denied 的悲剧将会重演。

2019-08-17 21:57:33 259 1

转载 转载:什么是 Word2Vec?

Word2Vec 是从大量文本语料中以无监督的方式学习语义知识的一种模型,它被大量地用在自然语言处理(NLP)中。 那么它是如何帮助我们做自然语言处理呢?Word2Vec 其实就是通过学习文本来用词向量的方式表征词的语义信息,即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。

2019-05-08 20:11:55 1499

原创 Learning to Rank 的实践

Learning to rank(LTR) 也叫 Machine-learned ranking,指的就是用机器学习的方法来解决文档排序问题 。Learning to rank 的思想就是建立一个模型 LTR,当我们输入某个查询 q 时,能够从文档及 D 中找出相关的文档并排序。

2019-01-11 02:16:54 6151 1

原创 JUnit 中的断言表达式(Assertion)

JUnit 是一个常见的 Java 测试框架,它的主要作用就是帮助人们重复地执行测试用例,现在简单总结一下 JUnit 4.12 中的全部断言语句,以及部分 JUnit 5 的更新断言语句。

2018-11-20 20:32:52 3129

转载 转载:结合日常生活的例子,了解什么是卡方检验

本文转自(有删改) Yan文怡 的博文《结合日常生活的例子,了解什么是卡方检验》,原博客地址请参见:https://www.jianshu.com/p/807b2c2bfd9b卡方检验是英文 χ2χ2\chi^{2}-Test 的谐音(注:希腊字母χχ\chi 的读音类似于 “kai”)。在大数据运营场景中,通常用在某个变量(或特征)值是不是和应变量有显著关系。我常听到分析师这样的话,...

2018-09-05 17:44:40 811

原创 写一篇简单的 IEEE 会议论文

当你使用 IEEE 模板提交论文到 ICSE,ICSME 等会议时,你需要在官网下载 IEEE 的模板,并参考相关规定来撰写你的 Latex 版本的论文手稿。我在这篇博客里简单介绍一些关于 IEEE 模板应用时需要的基本元素及要点。

2018-08-12 15:07:33 9809 5

原创 特征选择的探索

特征选择(feature selection),又称为变量选择,属性选择,或者变量子集选择。它指的是从原始特征集中选取最优特征子集的过程。筛选后得到的最优特征子集训练出来的模型具有更强的预测能力。特征选择的主要解决维度灾难问题。

2018-07-24 01:16:25 5543 1

原创 python-pip 安装

在 Python 中,pip 是下载和安装 python 包的工具,它能够通过简单的命令(如 pip install )对项目所需的包进行下载和安装,本文介绍了 pip 的原理,pip 与 apt-get 的区别,和安装 pip 遇到的问题。

2018-07-16 00:53:28 2955 1

原创 将博客搬至CSDN_追逐梦想的顾咏丰_新浪博客

Hi,大家好,我的博客已经从新浪博客转到更为专业的 CSDN上面了,我会以新的笔名chikily_yongfeng(https://blog.csdn.net/chikily_yongfeng)来继续记笔记,写总结,希望自己能够坚持下去。Gogo 加油! ...

2018-07-15 16:30:41 79

原创 matplotlib 初识

Python 使用 matplotlib[1]库来作图,其职责可以看做是数据挖掘中的数据可视化。虽然之前我也尝试了 matlib 的相关作图功能,但无奈太繁琐,而 python 则更加简洁高效,并且与自己的代码更紧密的结合,觉得很适合自己。现在,我简单回顾以下几种简单 plot 图形,用作查阅复习之用。在编程之前请务必将 2 个库导入到程序中 (为了方便起见,推荐直接安装 anaconda[3...

2018-07-15 16:27:10 724

原创 皮尔森相关系数_追逐梦想的顾咏丰_新浪博客

皮尔森相关系数是统计学中比较重要的概念,它能够计算衡量出 2个随机变量的相关性。在我们特征选择时特别重要,现在给出维基百科上的介绍Instatistics, the Pearson correlation coefficient (PCC), alsoreferred to as Pearson's r, the Pearson product-moment correlatio...

2018-05-06 20:04:52 1058

原创 Threats to Validity_追逐梦想的顾咏丰_新浪博客

The controlled or experimental design enables the investigatorto control for threats to internal and externalvalidity.在论文的写作过程中,经常回遇到一个重要的小节,就是 Threats toValidity。这个小节主要介绍了方法或者结论在有效性方面遇到哪些可能的...

2018-05-06 17:33:53 1333

原创 Installing Python-pip_追逐梦想的顾咏丰_新浪博客

In python, pip is a important package management system(or packagemanager) used to install and manage software packages written inpython [1]. There are different ways to install python-pip varie...

2018-03-20 10:40:46 87

原创 数据挖掘(异常点检测)_追逐梦想的顾咏丰_新浪博客

异常点检测方法 Anomaly detectionmethods异常点(或离群点anomaly, outlier)指的就是那些在数据集中很不平常的,与众不同的模式[1][2][3][4]。按照 Hawkins 的经典定义,意思就是"异常点是一个观测值,它与数据集中其他的观测值如此不一样,以至于认为它是由其他的机制所产生的。"Anobservation which devia...

2017-12-15 17:50:02 499

原创 MarkDown语言的使用_追逐梦想的顾咏丰_新浪博客

风靡网络的文本编辑语言 MarkDown,可谓是编辑工作的救命稻草,简单的语法使得人们能从繁琐的格式调整中解放出来,更专注于文本内容本身。要知道GitHub,StackOverflow 等网站的评论和文本编辑都使用了 MarkDown语言,它真的是一把利器,减少了我们编辑文字时的巨大压力。以下教程是我空余时间在 GitHub 上写(项目https://github.com/Gu...

2017-11-18 11:12:00 118

原创 GitHub(第五讲:Git的安装)_追逐梦想的顾咏丰_新浪博客

1. Git 的安装要想在本地操作GitHub,就必须安装 Git。针对 Windows 和 Linux 2种平台,不同的安装方法。首先对于 Windows,需要下载客户端 msysGit,网址:https://git-for-windows.github.io/安装过后,可以打开相应的类似 linux 终端的 git bash,如下所示,在里面可以输入各种各样的 G...

2017-11-16 19:27:25 73

原创 GHTorrent:收集GitHub数据利器_追逐梦想的顾咏丰_新浪博客

1. 问题的由来相信大多数数据挖掘(准确的说数据仓库挖掘 MSR)爱好者,都热衷于通过软件开发过程中的种种数据来挖掘出我们想要的模式,经验,或者未知的东西。因此,之前 MSR 社区研究者经常活跃在SVN,CVS 等代码管理系统上,自从 2008 年 GitHub 出生以后,大多数人的目光逐渐转移到了 GitHub这个如今最大的开源代码托管平台上了,人们希望得到 GitHub上项...

2017-11-12 22:09:25 518

原创 JAVA高阶(StringTokenizer)_追逐梦想的顾咏丰_新浪博客

java.util.StringTokenizer 这个类是用来解析字符串的,可能老一辈的 Java程序猿还记得它的用法,虽然年代久远(Jdk1.0时期引入),方法也被完美替代(String.split() 和 正则表达式),但是在阅读开源代码时,还是会碰到,这里简单介绍一下StringTokenizer 类的用法(现在Java程序中并不鼓励使用它)。1. 创建 StringT...

2017-09-06 17:10:49 86

原创 Weka(第七讲:交叉验证)_追逐梦想的顾咏丰_新浪博客

交叉验证(Cross-validation),也叫循环估计(Rotationestimation)是评价学习算法好坏的一个验证手段。他的主要思路如下所示,以运用最广泛的十折交叉验证为例(当然,2 折、5 折交叉验证也比较流行),大概过程:首先,将总体样本随机打散;其次,将总体样本 Training set 平均分成 10 等份(即形成 10折);然后,进入迭代,在每一次...

2017-07-06 16:51:32 765

原创 MatLab(第六讲:boxplot图)_追逐梦想的顾咏丰_新浪博客

boxplot()指的就是盒图,记得在 HAN-Jiawei的那本著名的《数据挖掘》中,首先介绍的就是盒图,先来回顾以下数据挖掘中很重要的几个度量。居中趋势的度量离散性的度量依赖关系的度量可视化的度量1. 居中趋势的度量居中趋势的度量表征数据集的“中间”,表示数据样本在某一点集中的特性。具体的度量有:均值(mean),中位数(median),众数(mode...

2017-07-05 19:29:29 324

原创 Crash报告的处理流程_追逐梦想的顾咏丰_新浪博客

1. Crash Reporting ToolCrash是的软件缺陷的严重表现形式[1],表现为非功能性的程序中断或崩溃。Crash带来的糟糕的用户体验会极大地影响软件组织声誉。因此很多公司都将crash 报告工具(CrashReporting Tool)嵌入自己的产品中去,当来客户端发生崩溃时,及时生产 crash 报告并传给服务器,如微软公司的Windows Error ...

2017-05-08 20:51:22 342

原创 软件测试基础(测试入门)_追逐梦想的顾咏丰_新浪博客

错误是不可避免的,因此为了维护软件的可靠性,软件测试应运而生。理论上,软件测试其实就是一个纠错的过程,它的目的在于从程序中发现bug。现实中,测试人员通过编写测试用例,来发现程序中的bug。错误是我们日常生活的一部分,人们在思考、行动以及其行动产生的产品中都可能会出错。错误几乎无处不在。一, 错误与PIE模型在说软件测试之前,有必要弄清楚Fault,Error,F...

2017-04-08 13:16:00 77

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除