2018年05月_诚朴求食

原创凸优化理论学习

在机器学习和深度学习的工作中，最后一步都是对损失函数的极值计算，而这个极值如果我们能够找到全局极值也就是最小值，这是最好的情况；否则我们就必须想办法把原来的问题进行转化或者尝试其他的方法。这其中用到的方法就是凸优化理论。下面我将对我学习的凸优化理论进行一些整理，知识点可能比较杂碎，但句句是关键和我们所必须了解的。衡量一个问题难易的程度不在于其是否线性，而在于是凸问题还是非凸问题。一阶导...

2018-05-07 13:44:12 4586

Hyperopt库为python中的模型选择和参数优化提供了算法和并行方案。机器学习常见的模型有KNN、SVM、PCA、决策树、GBDT等一系列的算法，但是在实际应用中，我们需要选取合适的模型，并对模型调参，得到一组合适的参数。尤其是在模型的调参阶段，需要花费大量的时间和精力，却又效率低下。但是我们可以换一个角度来看待这个问题，模型的选取，以及模型中需要调节的参数，可以看做是一组变量，模型的质量标...

2018-05-30 17:03:23 2698 2

原创 Python pandas基础整理总结

近几日对金融数据进行预处理分析等等，pandas用的比较多，而且发现pandas的创始人就是为了处理金融数据的时候开发的pandas，在pandas功能不断扩展的时候才应用到了其他更多的领域，下面，我就对我这些天来对pandas的学习做一个简单的整理，沉淀一下。from pandas import Series, DataFrame import pandas as pdSeries类似...

2018-05-28 16:36:42 1083

原创 Selecting good features——IV. Stability selection & RFE

在特征工程当中，我们经常要对特征进行选择。最近在做股票的多因子分析，指导老师给了我一篇英文文献让我看一下，文献中用到了Stability和RFE两种方法，因此，我在这里对这两种方法进行一下说明。Stability——稳定性选择 RFE——递归特征消除（Recursive Feature Elimination）以上两种方法都可以考虑wrapper方法。他们都建立在基于模型的选择方法之上，...

2018-05-16 20:03:31 1848

原创特征选择：python lime

首先我们先看源代码：import limeimport sklearnimport numpy as npimport sklearnimport sklearn.ensembleimport sklearn.metricsfrom __future__ import print_functionfrom sklearn.datasets import fetch_20ne...

2018-05-16 17:53:44 10441 2

转载 XGBoost调参经验

本文介绍三部分内容： xgboost 基本方法和默认参数实战经验中调参方法基于实例具体分析1.xgboost 基本方法和默认参数在训练过程中主要用到两个方法：xgboost.train()和xgboost.cv()#xgboost.train()APIxgboost.train(params,dtrain,num_boost_round=10,evals=(),ob...

2018-05-10 22:42:08 376

原创树的三种遍历方式源码（递归与非递归）

在面试的时候，我们会经常被问到树的三种遍历，也就是前序遍历、中序遍历和后序遍历。所谓前序遍历，就是先访问根节点，再左，再右。命名方式就是根据根节点是在哪访问的去定义的。下面我们先用Java实现三种遍历的递归，是非常的简单。树的前序遍历：public void recursiveProOrder(Node root) { if (root != null) { S...

2018-05-08 22:30:19 619

原创快速排序和归并排序

快速排序和归并排序是面试的时候经常被问到的东西，对于其中的任何一个知识点都要对答如流才可以，比如手推、时间复杂度、原理等等。下面我就对这两种排序中常问到的知识点进行以下总结。快速排序快速排序代码如下（要做到熟记并理解）：private static int Partition(int[] arr, int left, int right) { //arr[lef...

2018-05-06 17:07:25 589

转载中文分词之隐马尔科夫模型（HMM）

HMM(Hidden Markov Model): 隐马尔科夫模型。李开复1988年的博士论文发表了第一个基于隐马尔科夫模型（HMM）的语音识别系统Sphinx，被《商业周刊》评为1988年美国最重要的科技发明。这个事件在吴军的《数学之美》中也有提及。HMM模型可以应用在很多领域，所以它的模型参数描述一般都比较抽象，以下篇幅针对HMM的模型参数介绍直接使用它在中文分词中的实际含义来讲：...

2018-05-05 17:17:03 1624

原创奇异值分解 VS 主成分分析

主成分分析（PCA）的实现一般有两种，一种是用特征值分解去实现的，一种是用奇异值分解去实现的。一般我们会用特征值分解去解释PCA。特征值和奇异值在大部分人的印象中，往往是停留在纯粹的数学计算中。而且线性代数或者矩阵论里面，也很少讲任何跟特征值与奇异值有关的应用背景。奇异值分解是一个有着很明显的物理意义的一种方法，它可以将一个比较复杂的矩阵用更小更简单的几个子矩阵的相乘来表示，这些小矩阵描述的是矩阵...

2018-05-04 17:23:47 1082

原创主成分分析——PCA降维算法

PCA，是一种降维算法，在我们处理高维数据的时候，他能够降低后序计算的复杂度，在“预处理”阶段先对原始数据进行降维。PCA就是通过将高维的数据通过线性变换投影到低维空间。降维当然意味着信息的丢失，不过鉴于实际数据本身常常存在的相关性，我们可以想办法在降维的同时将信息的损失尽量降低。以下就是PCA算法的基本步骤，我们假设有m条n维数据：将原始数据按列组成n行m列矩阵X将X的每一行（代...

2018-05-03 16:02:58 1170

原创机器学习：GBDT（Gradient Boosting Decision Tree）

GBDT涉及到模型融合，模型融合分为三类，Bagging、Boosting和Stacking。Gradient Boost是一个框架，里面可以套入很多不同的算法。GBDT就是其中的一个子类，以决策树作为弱分类器。GBDT可以用来做分类，也可以用来做回归。Boosting：Boosting是一个前向分布算法，在每一步求解弱分类器和它的参数后，不去修改之前已经求好的分类器和参数。决策树：决策树...

2018-05-02 22:58:10 354

原创机器学习：逻辑回归（Logistic Regression）

定义：逻辑回归假设数据服从伯努利分布，通过极大化似然函数的方法，运用梯度下降来求解参数，来达到将数据二分类的目的。输入：逻辑回归的输入是一个线性组合，与线性回归一样，但是输出变成了概率。通过伯努利（类似抛硬币的概率分布）的概率公式我们可以得到sigmoid函数。逻辑回归的最终形式：hθ(x;θ)=11+e−θTxhθ(x;θ)=11+e−θTxh_{\theta }(x;\theta)...

2018-05-02 22:42:44 942

原创 Ubuntu下使用Anaconda3 出现conda: 未找到命令

在使用Anaconda时，出现以下清况：fengchi863@fengchi863:~$ conda listconda：未找到命令如果是使用Anaconda3安装的tensorflow的话，这种情况也不能import tensorflow as tf。原因是因为每次开机后需要运行一个命令才可以：export PATH=~/anaconda3/bin:$PATH然后再运行...

2018-05-02 16:44:57 5944

原创 linux压缩和解压文件

Linux上常用的压缩文件是tar.gz文件，也就是tgz，这些文件对应的命令是tar。但是也有一些文件是我们从Windows电脑上传过去的，比如zip文件，这些文件对应的命令是unzip。以下做一个总结。1、tartar有以下参数：-c ：create 建立压缩档案的参数；-x ：解压缩压缩档案的参数；-z ：是否需要用gzip压缩；-v：压缩的过程中显示档案；-f：...

2018-05-02 10:21:29 121

原创 2018春招微软预科生面试经历

学校在南京，26号早上坐高铁到苏州进行面试，到了以后11点多，错过了约好的11点，就改到了下午一点开始面试。中午微软HR小姐姐带我们吃了食堂给我们准备的盒饭，然后一位大牛在期间给我们介绍了微软苏州的情况和苏州的各方面清况（说实话还挺诱人的）。一点回到等候的会议室，没过几分钟就有小哥哥叫我去一面了。一面问题：自我介绍面试官：看你做过的挺杂呀；我：…然后解释了下面试官：问我现在主要的方向...

2018-05-01 10:16:30 1154 2

诚朴求食