King_of_the_sea-CSDN博客

原创红墨水和蓝墨水

用钢笔把一滴红墨水滴到蓝墨水瓶里,摇匀后又把蓝墨水瓶里的混合墨水拿出一滴放到红墨水瓶从红墨水中取一克红墨水放入蓝墨水中,此时蓝墨水瓶中的混合墨水的比例为50:1.即混合墨水的应为1/51的红墨水和50/51的蓝墨水.1克混合墨水的应为1/51克的红墨水加50/51克的蓝墨水.完成两个步骤之后,红墨水瓶中的红墨水＝49克＋1/51克＝49又1/51克,蓝墨水＝50/51克.蓝墨水瓶中的蓝墨水＝50克－

2017-03-10 11:06:22 5021

转载核函数如何

Linear核：主要用于线性可分的情形。参数少，速度快，对于一般数据，分类效果已经很理想了。RBF核：主要用于线性不可分的情形。参数多，分类结果非常依赖于参数。有很多人是通过训练数据的交叉验证来寻找合适的参数，不过这个过程比较耗时。我个人的体会是：使用libsvm，默认参数，RBF核比Linear核效果稍差。通过进行大量参数的尝试，一般能找到比linear核更好的效果。 3至于到底该采用哪种核，

2017-03-08 21:53:51 429

转载 KD树原理

原文网址:http://blog.csdn.net/qll125596718/article/details/8426458KNN缺点实现k近邻法时，主要考虑的问题是如何对训练数据进行快速k近邻搜索，这点在特征空间的维数大以及训练数据容量大时尤其重要。k近邻法的最简单实现是线性扫描，这时要计算输入实例与每一个训练实例的距离，当训练集很大时，计算非常耗时，这种方法是不可行的。为了提高k近邻搜索的效率，

2017-03-06 11:21:35 3784

原创阿里算法面试题

原文网址:http://blog.csdn.net/helloeveryon/article/details/52070829

2017-03-06 10:29:48 2841

原创 liblinear比libsvm快的原因

这个问题面试的时候挂掉了，很难过，不过现在想明白了，做个笔记。liblinear和libsvm都用线性核函数的时候liblinear也更快,具体原因是因为liblinear在求解的过程中维护者w的值，那么当前训练集每个样本的预测值就是w*x_i; 而libsvm因为考虑非线性核的情况，优化过程中不能维护w的值，根据http://blog.csdn.net/v_july_v/article/detai

2017-03-06 00:18:50 433

转载面试关于CTR预测

原文网址： https://zhuanlan.zhihu.com/p/21479297短时间内预测CTR？于是，第二个问题随之而来，如何在短时间内给新广告做一个靠谱的CTR预估？能不能直接用短时间内的点击数据除以曝光数据得到CTR的预估呢？答案是不行。通常根据广告和媒体的不同，点击率CTR一般在0.1%到1%之间浮动，那么假如一个广告在1000次曝光中产生了3次点击，估计它的点击率是0.3%显

2017-03-05 13:38:49 2873

转载偏差、方差、SVD、PCA、LDA

偏差和方差的概念：偏差：描述的是预测值（估计值）的期望与真实值之间的差距。偏差越大，越偏离真实数据，如下图第二行所示。方差：描述的是预测值的变化范围，离散程度，也就是离其期望值的距离。方差越大，数据的分布越分散，如下图右列所示。原文网址:https://www.zhihu.com/question/20448464SVD原文网址:http://www.cnblogs.com/LeftNotE

2017-03-02 00:21:03 718

原创机器学习面试2

机器学习中正则化项L1和L2的直观理解原文网址：http://blog.csdn.net/jinping_shi/article/details/52433975L1正则化和L2正则化可以看做是损失函数的惩罚项。对于线性回归模型，使用L1正则化的模型建叫做Lasso回归，使用L2正则化的模型叫做Ridge回归（岭回归）L1正则化可以产生稀疏权值矩阵，即产生一个稀疏模型，因此可以用于特征选择 L2正

2017-03-01 23:21:35 362

转载快速排序 and 归并排序(python)

快速排序:#QuickSort by Alvindef QuickSort(myList,start,end): #判断low是否小于high,如果为false,直接返回 if start < end: i,j = start,end #设置基准数 base = myList[i] while i < j:

2017-03-01 16:26:00 191

转载 PageRank

PageRank，网页排名，又称网页级别、Google左侧排名或佩奇排名，是一种由[1] 根据网页之间相互的超链接计算的技术，而作为网页排名的要素之一，以Google公司创办人拉里·佩奇（Larry Page）之姓来命名。Google用它来体现网页的相关性和重要性，在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。Google的创始人拉里·佩奇和谢尔盖·布林于1998年在斯坦福大学发明了这

2017-03-01 10:35:51 254

原创 What is key=lambda in python

原文地址: http://stackoverflow.com/questions/13669252/what-is-key-lambdaA lambda is an anonymous function: f = lambda: ‘foo’ print f() foo It is often used in functions

2017-02-28 21:24:55 459

转载 (动态规划)最长回文子序列、回文子序列个数

原文网址: http://www.cnblogs.com/AndyJee/p/4465696.html字符子串和字符子序列的区别字符子串指的是字符串中连续的n个字符；如palindrome中，pa，alind，drome等都属于它的字串而字符子序列指的是字符串中不一定连续但先后顺序一致的n个字符；如palindrome中，plind，lime属于它的子序列，而mod，rope则不是，因为它们与字符

2017-02-28 10:27:46 534

原创机器学习面试

GBDT分类和回归的原理:http://www.cnblogs.com/pinard/p/6140514.html 回归树讲解:http://idatamining.net/blog/?p=6981、无监督和有监督算法的区别？所谓的学习，其本质就是找到特征和标签间的关系（mapping）。输入数据有标签，则为有监督学习，没标签则为无监督学习。 A、训练集有输入有输出是有监督，包括所有的回归算法分

2017-02-25 10:40:15 3897

转载 PCA、LDA降维

原文网址: http://blog.csdn.net/sunmenggmail/article/details/8071502它们之间的区别就是PCA是一种unsupervised的映射方法而LDA是一种supervised映射方法 PCA 是无监督的，它所作的只是将整组数据整体映射到最方便表示这组数据的坐标轴上，映射时没有利用任何数据内部的分类信息用主要的特征代替其他相关的非主要的特征，所

2017-02-24 20:42:24 409

原创朴素贝叶斯 VS 逻辑回归区别

2017-02-24 20:36:26 1162

转载连续特征的离散化

作者：知乎用户链接：https://www.zhihu.com/question/31989952/answer/54184582 来源：知乎在工业界，很少直接将连续值作为逻辑回归模型的特征输入，而是将连续特征离散化为一系列0、1特征交给逻辑回归模型，这样做的优势有以下几点： 0. 离散特征的增加和减少都很容易，易于模型的快速迭代； 2. 离散化后的特征对异常数据有很强的鲁棒性：比如一个特

2017-02-24 20:13:09 462

原创 Linear SVM和LR的区别

1、LInear SVM 和LR都是线性分类器 2、Linear SVM不直接依赖数据分布，分类平面不受一类点影响；LR则受所有数据点的影响，类别不平衡的情况先对数据做balancing 3、Linear SVM依赖数据表达的距离测度，所以要对数据先做normalization；LR不受其影响； 4、Linear SVM依赖penalty的系数，实验中要做cross-validation选参

2017-02-24 19:01:38 530

原创机器学习核函数理解

核函数要满足的条件称为Mercer’s condition。核函数的作用就是隐含着一个从低维空间到高维空间的映射，而这个映射可以把低维空间中线性不可分的两类点变成线性可分的。在机器学习中常用的核函数，一般有这么几类，也就是LibSVM中自带的这几类： 1) 线性：K(v_1,v_2)=

2017-02-24 16:53:21 1982 1

转载理解bootstrap,bagging,boosting-三个概念

原文地址:http://m.blog.csdn.net/article/details?id=497656731 booststraping：意思是依靠你自己的资源，称为自助法，它是一种有放回的抽样方法，它是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。其核心思想和基本步骤如下：（1）采用重抽样技术从原始样本中抽取一定数量（自己给定）的样本，此

2017-02-22 21:44:06 398

转载对线性回归，logistic回归和一般回归的认识

原文地址: http://www.cnblogs.com/jerrylead/archive/2011/03/05/1971867.html线性回归线性回归假设特征和结果满足线性关系。其实线性关系的表达能力非常强大，每个特征对结果的影响强弱可以由前面的参数体现，而且每个特征变量可以首先映射到一个函数，然后再参与线性计算。这样就可以表达特征与结果之间的非线性关系。logistic回归本质上是线性回

2017-02-22 15:34:09 301

转载动态规划之01背包问题

原文地址:http://blog.csdn.net/mu399/article/details/7722810 题目描述：有编号分别为a,b,c,d,e的五件物品，它们的重量分别是2,2,6,5,4，它们的价值分别是6,3,5,4,6，现在给你个承重为10的背包，如何让背包里装入的物品具有最大的价值总和？为了叙述方便，用e2单元格表示e行2列的单元格，这个单元格的意义是用来表示只有物品e时，有

2017-02-01 10:23:17 252

原创 Python: how to create a list of n lists [[],[],[]]

今天做leetcode螺旋写入矩阵https://leetcode.com/problems/spiral-matrix-ii/ 这个题目的时候，需要初始化一个含有n个list的list，因为对python不是特别的熟悉，刚开始用的初始化写法是:a = [[0]*n]*n 这就生成了一个n行n列的list，但是给列表赋值的时候会发生错误，比如n=3， a[0][1]=2 那链表则变成了a =

2017-01-13 10:03:44 4583

翻译求两个矩阵中向量的欧氏距离(python实现)

假设有两个三维向量集，用矩阵表示: 要求A，B两个集合中的元素两两间欧氏距离。先求出ABT：然后对A和BT分别求其中每个向量的模平方，并扩展为2*3矩阵：然后：将上面这个矩阵一开平方，就得到了A，B向量集两两间的欧式距离了。代码:def EuclideanDistances(A, B): BT = B.transpose() # vecProd = A * BT vec

2017-01-04 16:54:32 23354

转载 window10下同时安装python2.7和python3.5，并配置sublime ctrl+B选择运行python版本

安装python首先是安装两个版本的python，并配置相应的环境变量1、在下载安装好Python 2.7和Python 3.5后，找到目录并改程序命名，将G:\Software\Python27（这是安装目录,下同，每人可能不一样）下的python.exe和pythonw.exe分别重命名为python2.exe和pythonw2.exe（此处命名看自己喜欢，改py2也可以）2、将G\Softwa

2016-12-28 15:44:19 5725

原创 leetcode 部分题解(python)

leetcode 部分题解(python)Sum of Two Integers题目链接：https://leetcode.com/problems/sum-of-two-integers/ 题目翻译：计算两个整数a和b的和，但是不能使用运算符加号和减号。比如：给定a=1，b=2，返回3。思路：既然不能使用加法和减法，那么就用位操作。下面以计算5+4的例子说明如何用位操作实现加法：

2016-12-26 12:27:13 5891

原创 matlab柱状图填充物

matlab画图

2016-12-06 22:19:50 1719 1

原创 screen用法

screen用法

2016-12-05 21:43:20 430

原创 python pip以及whl文件安装

python pip安装

2016-12-05 21:40:49 3419

转载 64位win10下安装xgboost python包的教程

64位win10下安装xgboost python包的教程

2016-11-23 23:49:53 746

转载 Deep Learning（深度学习）学习笔记（一）

http://blog.csdn.net/zouxy09/article/details/8775360

2016-11-21 15:15:15 294

wanghai00的博客