自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

ZSY的大后台

心有所适,随遇而安

  • 博客(94)
  • 收藏
  • 关注

原创 笔记(总结)-自编码器(Autoencoders)

AE自编码器(下简记为AE)为一类特殊的神经网络,该网络输入维度等于输出维度,通过网络隐层的复杂神经元结构,尝试学习数据的内在特征(pattern),从而达到特征提取、数据降维、生成新数据等多种目的。简单的AE和MLP类似,except输入维度等于输出维度。此时输入数据的标签即为自身,模型的损失函数cost=cost(output, input),用来评估输出是否很好地重新构建了输入。...

2017-12-19 23:29:56 2293

原创 技术-Mac版本的GLPK安装使用

最近算法课讲授了线性规划问题,推荐了GLPK(GNU Linear Programming Kit)进行线性规划问题的公式化和求解。Mac下可以通过homebrew进行安装,之后写一个问题描述文件,通过命令行调用求解即可得到输出结果文件。参考链接如下:GLPK Mac 安装 例子 - CSDN博客

2017-12-18 10:44:02 1356

原创 笔记-cs224n(基于深度学习的自然语言处理)

最近在看CS224n的课程,一来可以复习下深度学习基础知识,二来了解学习下在NLP领域使用较多的深度学习模型(RNN、GRU、LSTM…)。授课视频为全英文,国内好像暂时没有带字幕的版本,不懂的地方回放下就好,观看压力不是很大。另参考一位牛人的笔记,对每节课做了很好的总结,每节课看完后去看下博客可以加深理解。给出链接如下:CS224n课程主页自然语言处理-码农场

2017-12-18 10:34:54 2933

原创 笔记-cross validation(交叉验证)

机器学习任务中,最终目标是最小化模型在测试集(test dataset)上的错误(error)。在只有训练数据情况下,我们想模拟“训练”—>“测试”这一过程,即利用一部分数据集进行训练,再在另一部分数据集上进行假想测试。由于测试的数据集是属于训练数据的一部分,有label来验证测试结果,故能给建模调参提供依据,这部分带有label的测试数据叫做验证集(validation dataset)。每次按不

2017-12-04 14:51:54 430

原创 笔记-GBDT&Xgboost

数据挖掘模型中,树模型解释性强、拟合效果好、调参更有依据…在比赛中多次使用。其中从最基础的决策树—>CART—>复杂的GBDT—>高效实现的xgboost,原理和工程实现都大不相同。列出学习过程中的参考链接:【十大经典数据挖掘算法】CART - Treant - 博客园简单易学的机器学习算法——梯度提升决策树GBDT - CSDN博客GBDT(MART) 迭代决策树入门教程 | 简介 - CSDN博

2017-12-04 14:32:44 544

原创 kaggle-Porto Seguro's Safe Driver Prediction

Porto Seguro’s Safe Driver Prediction是一道回归预测题,参赛者需要根据数据给出某个保险实例是否会出发赔款的概率。该题有5000+人参加,近期也结赛了。最终我的排名1000+,离前20%只差一点点,有些可惜。不过这一次比赛中还是学到了很多东西。列出参考的notebook链接:EDA: Interactive Porto Insights - A Plot.ly T

2017-12-04 14:21:47 2516

原创 笔记-缺失值处理

缺失值(missing value)是机器学习建模过程中最让人头疼的问题之一。重要属性的缺失更是会让模型的预测效果变差,容易让模型过拟合。解决方法主要有三类:删除含缺失值的数据行(instance)、删除含缺失值的数据列(feature)、填充缺失值。在以下链接中都有涉及:机器学习中如何处理缺失数据? - 知乎面对数据缺失,如何选择合适的机器学习模型?

2017-12-04 13:46:09 612

原创 笔记-Bagging与随机森林

集成学习中有两类方法,bagging和boosting。bagging使用众多弱学习器进行并行拟合,不同的学习器之间取长补短,能达到甚至超越强学习器的效果。bagging的有效实现是随机森林算法,也是在数据挖掘比赛中常使用的基础方法。参考链接如下:Bagging与随机森林算法原理小结 - 刘建平Pinard - 博客园

2017-12-01 00:00:28 446

原创 笔记-GridSearchCV

机器学习的“炼丹”(调参)过程是一个十分痛苦的过程。一方面很多数据特性不能人为解释,另一方面我们对于调用的算法库并不十分了解。导致调参过程具有一定的玄学性。当缺乏理论指导时,对参数的任意设置可能带来意想不到的效果,而这种设置又是拍脑袋拍出来的,所以需要一种方法,来搭配不同的参数来测试模型。sklearn中的GrdiSearchCV就具有这样的作用,给定参数列表,它会自由组合众多参数,对模型进行测试,

2017-11-30 14:50:50 543

原创 笔记-Tukey Method发现outliers(离群点)

在大规模数据集中,由于噪声、扰动、采样过程误差等等原因,会出现一些数据点偏移整个数据集。假想整个数据集由某未知分布生成,则这些点可以看做该未知分布下的噪声采样。在可视化情况下,这些点显著偏移了数据集的点群,故称为离群点。而众多机器学习算法对数据分布都存在着一定的假设或期待数据集较为“规整”。因此在数据挖掘中,常需要在预处理中去除该类点,让算法能更好地发现“正常”数据间存在的关系。Tukey Meth

2017-11-30 14:31:58 3725

原创 笔记-梯度下降

Gradient Descent(梯度下降)作为机器学习中求解目标(损失)函数最值的方法,迭代求解速度快,逻辑清晰。学习中参考链接如下:深入梯度下降(Gradient Descent)算法 - ooon - 博客园

2017-11-30 14:21:47 349

原创 笔记-SVM

SVM(支持向量机)在深度学习算法崛起前是机器学习中最强大的算法,可以应用在分类与回归问题上,具有诸多优势。学习时建议先阅读周志华西瓜书相关部分,而后参考一些博客。若想要有更深入的理解,可以观看斯坦福大学机器学习cs229中SVM部分。参考链接如下:该博主关于SVM算法的系列文章讲解十分详细: 机器学习算法与Python实践之(二)支持向量机(SVM)初级

2017-11-30 14:16:26 399

原创 笔记-SVD&PCA

SVD(奇异值分解)能够提取出最能代表一个矩阵的“特征方向”,在机器学习中最为重要的应用是PCA(主成分分析)。周志华西瓜书中讲得较为详细,结合以下参考链接可以有一个较好的理解。在同类型博客中笔记-矩阵与特征值给出的知乎问题链接下,某回答很好地解释了矩阵分解在PCA中的应用,十分具有参考性。机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用 - LeftNotEasy - 博客园奇异值分

2017-11-30 14:05:16 350

原创 笔记-矩阵与特征值

线性代数是机器学习数学基础中最重要的一环。矩阵作为线性代数中最基本、使用最广泛的概念,理解它的数学意义对建模是十分有帮助的。而特征值是描述矩阵的重要指标。知乎上对于矩阵问题的讨论十分具有参考性,各答主从不同角度,用浅显易懂的方式进行了讲解:(1 封私信 / 11 条消息)如何理解矩阵特征值? - 知乎

2017-11-30 13:57:48 556

原创 笔记-L1、L2范数理解

L1、L2范数是解决机器学习问题中模型过拟合的典型方法,在模型参数空间进行限制,是机器学习建模逻辑中重要的一环。学习过程中参考链接如下(周志华西瓜书也讲得很详细):机器学习中的范数规则化之(一)L0、L1与L2范数 - zouxy09的专栏 - CSDN博客(1 封私信 / 9 条消息)0 范数、1 范数、2 范数有什么区别? - 知乎正则化方法:L1和L2 regularization、数据集扩增

2017-11-30 13:50:06 650

原创 kaggle-House Price Prediction

房价预测问题,kaggle回归类入门题。做该比赛时,参考链接如下:数据分析: Comprehensive data exploration with Python | Kaggle正则化线性模型: Regularized Linear Models | Kaggle

2017-11-30 13:43:44 1765

原创 kaggle-Digit Recognition(手写数字识别)

DR(手写数字识别)问题是多分类问题的入门题目,可以采用多种机器学习方法进行求解。同时由于是图像类问题,可以使用CNN(卷积神经网络)求解。列出做该比赛时的参考链接:Digit Recognition【机器学习算法实现】logistic回归__基于Python和Numpy函数库 - wepon的专栏 - 博客频道 - CSDN.NETKaggle入门——使用scikit-learn解决DigitRe

2017-11-30 13:40:42 731

原创 kaggle-Titanic

kaggle入门题——Titanic。给出写代码时参考的notebook:传送门

2017-11-30 13:34:06 428

原创 笔记-Kaggle竞赛入门

鉴于之前看过两遍斯坦福Ng的机器学习课程,最近想通过kaggle来入手数据挖掘,通过实际问题加深对于算法、问题解决过程的理解。在网上找了一些对kaggle比赛过程的介绍与参赛心得,参考链接如下:kaggle home pagekaggle入门教程-传送门1kaggle入门教程-传送门2

2017-06-16 08:57:05 547

原创 笔记-SimHash

最近工作中用到了simhash来找相似文章,参考链接如下:传送门

2017-06-14 15:42:59 394

原创 技术-screen命令

screen命令可以控制进行复杂的会话管理,参考链接如下:传送门

2017-06-14 15:38:52 451

原创 技术-Linux下ps、grep、kill命令

最近工作中使用到了上述三项命令:ps -aux | grep java 查看所有Java进程 kill -9 xxxxx 强制终止某进程参考链接:传送门

2017-06-14 15:36:41 782

原创 技术-Java连接mysql数据库

最近工作中需要Java环境下连接数据库,参考链接如下:传送门 传送门2

2017-05-23 21:05:40 367

原创 技术-Java正则表达式语法与简单实例

最近开发任务涉及到在文本中找出有明确界定符的信息,如书名号、引号等,还包括将文章按小标题(一、二、三等类似)切分,这些用正则表达式都可以很好处理,参考链接如下:传送门

2017-05-15 14:27:18 425

原创 技术-Java程序调用外部程序获取输出

毕设中需要在Java程序运行过程中调用Python程序,并且得到它的控制台输出,参考链接如下:传送门

2017-05-15 14:23:37 720

原创 技术-Java读取xml格式文件

毕设中需要在Java环境下读取复杂格式的xml文件,参考链接如下:传送门

2017-05-15 14:18:27 559

原创 技术-指定字符串查找

毕设论文中需要在一篇文本中统计某些词出现次数,这些词在不同场景下可能扩充为句子或指定文本,参考链接如下:传送门

2017-05-15 14:16:00 350

原创 技术-Homebrew

Homebrew是一个Mac OS下的软件包管理工具,可以通过命令行的方式比较方便地安装、卸载软件(程序员专有的工具),参考链接如下:传送门

2017-05-15 14:04:35 405

原创 笔记-常用自然语言处理工具包一览

本科毕设中需要使用自然语言处理工具,工具繁多需要从中筛选,参考链接如下:JAVA自然语言处理NLP工具包

2017-05-12 10:40:54 870

原创 技术-Mac下ssh远程登录与scp文件传输

工作中需要远程登录服务器或其他主机,mac环境下有现成工具;同时登录远端服务器或主机后,可能需要进行文件传输,使用scp命令。具体参考:Mac 使用SSH远程登录与scp命令

2017-05-12 10:38:58 1231

原创 技术-CentOS中配置Java环境

工作中需要在CentOS下配置Java环境,参考链接如下:CentOS中安装JAVA环境

2017-05-12 10:32:47 404

原创 笔记-深度学习

对当前热门的深度学习技术进行简单了解,参考链接如下,其中300多页的PDF我一天看完的,写的浅显易懂且不枯燥乏味:传送门

2017-05-12 10:27:58 342

原创 笔记-TextRank与关键词提取

本科毕设用到了该项理论与相关技术,整理参考链接与论文如下:TextRank算法介绍从PageRank到TextRankTextRank: Bringing Order into Texts

2017-05-12 10:22:54 785

原创 笔记-知识图谱入门

通过知乎查找知识图谱相关资料,整理如下:知识图谱怎样入门知识图谱目前亟待的问题有哪些中文知识图谱构建思路是什么知识图谱的应用知识图谱——机器大脑中的知识库

2017-05-12 10:12:41 2876

原创 笔记-FudanNLP

FudanNLP为中文自然语言处理开源工具包,学习记录如下:传送门

2017-05-12 10:08:40 392

原创 笔记-TF-IDF

通过大牛的博客学习了TF-IDF,记录如下:传送门

2017-05-12 10:05:56 409

原创 考研之路-复试

本篇紧接上一篇考研(保研)之路-面试介绍信工所复试相关的工作。我的理解中,复试并不只是官方通知后目标院校组织的复试考核,还应该包括研究生考试结束后-官方通知前这一时间段所做的一些工作。按时间轴来划分可以分为如下几个阶段。研究生考试结束——成绩出之前研究生考试过后,自我感觉考得好的同学可以马上联系心仪的导师(如果还没有找到,可以进行信息搜集,同参见上一篇文章),有了提前面试和考试成绩的双保险一般就可以

2017-05-09 15:14:18 1815 2

原创 考研(保研)之路-面试

可能对于大多数人来说,复试就是在报考院校公布了面试名单,发现自己上线了,然后去参加相关测试。对我来说,所有与初始无关却又是为了最终能被目标院校录取所做的工作都算复试相关工作。这一篇主要谈谈研究生考试前做的相关工作,也可以算2016年为最终复试做的准备工作。信息搜集虽然没有保研资格,但是为了见识见识,我也如很多保研生一样参加了夏令营,女朋友参加计算所,室友参加了清华夏令营。无论是考研还是保研,信息搜集

2017-05-05 09:52:56 3510 1

原创 考研之路-备考

个人情况研究生报考单位为中国科学院大学,学硕,考试科目为数学一、英语一、政治、计算机综合(863)。我的复习计划比较特别,时间也花的相对较少。故列出大学成绩供参考:工科数学分析上—84工科数学分析下—92线性代数—78概率论与数理分析—90大学四级—624大学六级—604数据结构—96计算机组成原理—92操作系统—98计算机网络—86思修—84毛概—94近代史—92马哲—

2017-05-03 16:54:58 1623

原创 考研之路-心态

每一个拒绝考研的人,原因之一肯定是怕失败看上去是一句废话,其实是很多人都无法直面的残忍现实,我也是这样。在上了大学后,不可避免的放纵让自己早就没了高中那股学习的动力,没了目标导致的迷茫就像精神鸦片一样慢慢麻痹思维,毒害头脑。随着动力的缺失,学习习惯、学习能力也逐渐消失,犹如一辆很久没开的车,很难再次顺畅地发动。在这样一种精神状态下,面对未知的考研,三年前埋头苦干奋笔疾书的自己早已不再。慢慢习惯了消极

2017-05-02 19:54:58 624

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除