2016年12月_xiaopihaierletian

原创 LeetCode 477. Total Hamming Distance-python

题目大意：两个整数的汉明距离是指其二进制不相等的位的个数。计算给定的整数数组两两之间的汉明距离之和。注意：元素大小在[0, 10^9]之间。数组长度不超过10^4。解题思路：按位统计各整数的二进制0与1的个数之和，分别记为zero[i], 和one[i]ans = ∑(zero[i] * one[i]), i∈[0, 31]Python

2016-12-27 21:18:51 989

原创 Leetcode 477. Total Hamming Distance-java

1 解题思想题目的意思就是给了一个数组，现在求总的海明距离，其中： 1、海明距离：任意两个数在二级制的表示下（int = 32bit），每个bit对应的值是1或0，那么这两个数在这32个位置下，取值不一样的地方的总和就是海明距离 2、总的距离：该数组中，所有两两组合得到的元素的海明距离的和看到这里，其实就可以猜到，应该不能暴力解决了而方法也找到了一个很简单的：

2016-12-27 21:07:29 1051

原创 Java的位运算符详解实例——与（&）、非（~）、或（|）、异或（^）

位运算符主要针对二进制，它包括了：“与”、“非”、“或”、“异或”。从表面上看似乎有点像逻辑运算符，但逻辑运算符是针对两个关系运算符来进行逻辑运算，而位运算符主要针对两个二进制数的位进行逻辑运算。下面详细介绍每个位运算符。 1．与运算符与运算符用符号“&”表示，其使用规律如下：两个操作数中位都为1，结果才为1，否则结果为0，例如下面的程序段。public class

2016-12-27 21:00:08 359

原创 java中异或^运算符的运用

java的位运算符中有一个叫异或的运算符，用符号(^)表示，其运算规则是：两个操作数的位中，相同则结果为0，不同则结果为1。下面看一个例子：public class TestXOR{public static void main(String[] args){int i = 15, j = 2;System.out.println("i ^ j = " + (i ^

2016-12-27 20:16:14 1333

原创 LeetCode 461. Hamming Distance-Java

思路：(1)异或运算：先求x^y的结果res。(2)再依次求int32位的res每一位与1做&运算的结果，若不为0则Hamming Distance +1(3)每判断完一位，res右移一位继续判断下一位[html] view plain copy public class Solution { publi

2016-12-27 19:59:06 501

之前看了流行学习的时候，感觉它很神奇，可以将一个4096维的人脸图像降到3维。然后又看到了可以用径向基网络来将这3维的图像重构到4096维。看到效果的时候，我和小伙伴们都惊呆了（呵呵，原谅我的孤陋寡闻）。见下图，第1和3行是原图像，维度是64x64=4096维，第2和第4行是将4096维的原图像用流行学习算法降到3维后，再用RBF网络重构回来的图像（代码是参考一篇论文写的）。虽然在重构领域，这效果

2016-12-26 14:51:19 557

转载特征处理（Feature Processing)

特征工程（Feature Engineering）经常被说为机器学习中的black art，这里面包含了很多不可言说的方面。怎么处理好特征，最重要的当然还是对要解决问题的了解。但是，它其实也有很多科学的地方。这篇文章我之所以命名为特征处理（Feature Processing），是因为这里面要介绍的东西只是特征工程中的一小部分。这部分比较基础，比较容易说，所以由此开始。单个原始特征（或

2016-12-26 14:30:47 417

原创 Deep Learning源代码收集

收集了一些Deep Learning的源代码。主要是Matlab和C++的，当然也有Python的。放在这里，后续遇到新的会持续更新。下表没有的也欢迎大家提供，以便大家使用和交流。谢谢。最近一次更新：2013-9-22Theanohttp://deeplearning.net/software/theano/code from: http://de

2016-12-26 14:29:15 305

原创 LibLinear（SVM包）使用说明之（三）实践

LibLinear（SVM包）使用说明之（三）实践我们在UFLDL的教程中，Exercise: Convolution and Pooling这一章节，已经得到了cnnPooledFeatures.mat特征。在该练习中，我们使用的是softmax分类器来分类的。在这里我们修改为用SVM来替代softmax分类器。SVM由Liblinear软件包来提供。这

2016-12-26 14:27:41 421

原创 LibLinear（SVM包）使用说明之（二）MATLAB接口

LibLinear（SVM包）使用说明之（二）MATLAB接口一、介绍 LIBLINEAR是一个简单的求解大规模规则化线性分类和回归的软件包。本文介绍在Matlab中如何使用该软件包。(http://www.csie.ntu.edu.tw/~cjlin/liblinear) 二、安装在Windows系统中，预编译好

2016-12-26 14:27:03 302

原创 LibLinear（SVM包）使用说明之（一）README

LibLinear（SVM包）使用说明之（一）[email protected]://blog.csdn.net/zouxy09 本文主要是翻译liblinear-1.93版本的README文件。里面介绍了liblinear的详细使用方法。更多信息请参考： http://www.csie.ntu.edu.tw/~cjli

2016-12-26 14:26:11 516

原创 Libsvm与Liblinear源码浅析与封装（二）

封装Libsvm与Liblinear开篇我们基于以下场景：假设我们已经用libsvm或者是Liblinear训练了一个模型，现在需要读入该模型并基于该模型对一个样本进行预测，返回预测的类标签以及相应的隶属度分数。从封装的角度我们需要考虑以下几个问题：如何规范输入，使得读入的数据在Libsvm与Liblinear上都可以直接运

2016-12-26 09:38:07 623

原创 Libsvm与Liblinear源码剖析与封装（一）

简介因为项目的需要，我们需要同时使用Libsvm与Liblinear，并将其封装起来做成统一调用形式，目前软件已经完成，名称为Tmsvm-基于SVM的文本挖掘系统本文就来分析一下Libsvm与Liblinear的异同点以及封装这两个软件需要注意的事宜。关于Libsvm的源码分析，上海交通大学模式识别实验室曾经有过这方面的工作，可以从网上下载。本文也结合他之前的工作，对libsv

2016-12-26 09:19:56 365

原创 Libsvm和Liblinear的使用经验谈

Libsvm和Liblinear都是国立台湾大学的Chih-Jen Lin博士开发的，Libsvm主要是用来进行非线性svm 分类器的生成，提出有一段时间了，而Liblinear则是去年才创建的，主要是应对large-scale的data classification，因为linear分类器的训练比非线性分类器的训练计算复杂度要低很多，时间也少很多，而且在large scale data上的性

2016-12-26 09:08:05 458

原创 LeetCode 461. Hamming Distance-python

Problem Statement(Source) The Hamming distance between two integers is the number of positions at which the corresponding bits are different.Given two integers x and y, calculate the Hammi

2016-12-25 23:12:33 2661

转载教你如何迅速秒杀掉：99%的海量数据处理面试题

教你如何迅速秒杀掉：99%的海量数据处理面试题本文经过大量细致的优化后，收录于我的新书《编程之法》第六章中，新书目前已上架京东/当当/亚马逊作者：July出处：结构之法算法之道blog前言一般而言，标题含有“秒杀”，“99%”，“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌，但进一步来讲，

2016-12-24 23:36:51 343

原创机器学习技法笔记二 dual support vector machine

接着上一章说=。=上一章看上去其实已经挺不错的了，但是实际上，我们仔细思考还是有一些问题需要解决的。例如，当我们需要做非线性的划分的时候，我们可以考虑转换到Z空间，在Z空间做线性划分，再回到原来的x。然而就是这里出现了问题，如果我们要做z空间的转换，那么我们的复杂度就不再是以前的那个d了，而是弯弯曲曲的d了，也就是复杂度变大了，还记得我们上次说的如何解决最后的问题吗

2016-12-23 22:12:14 359

原创机器学习技法(林軒田)笔记之一

机器学习技法(林軒田)笔记之一Linear Support Vector MachineCourse IntroductionCourse HistoryCourse Design在本课程中机器学习基石课程中所讲到的基本工具，将其延伸成复杂实用的模型。主要围绕特征转换的3个方向展开：1.如果有很多特征转换要使用的时候如何应用特征转换，更重要的

2016-12-22 22:01:46 823

原创 matlab sparse

函数功能：生成稀疏矩阵使用方法：S = sparse(A) 将矩阵A转化为稀疏矩阵形式，即矩阵A中任何0元素被去除，非零元素及其下标组成矩阵S。如果A本身是稀疏的，sparse(S)返回S。 S = sparse(i,j,s,m,n,nzmax) 由向量i,j,s生成一个m*n的含有nzmax个非零元素的稀疏矩阵S，并且有 S(i(k),j(k)) = s(k)。向量 i，j

2016-12-22 14:37:18 917

原创 WEKA使用教程(经典教程转载)

WEKA使用教程目录 1. 简介2. 数据格式3.数据准备4. 关联规则（购物篮分析）5. 分类与回归6. 聚类分析1. 简介 WEKA的全名是怀卡托智能分析环境（Waikato Environment for Knowledge Analysis），它的源代码可通过http://www.cs.waikato.ac.nz/ml/weka得到。同时we

2016-12-06 21:36:22 679

转载 MLOSS跟MULAN

刚开始整理整个硕士阶段的东西，首先弄出来的是开源多类标挖掘平台MULAN，google一下“MLKD Learning From Multi-Label Data”就行，具体网址是http://mulan.sourceforge.net。MULAN是基于weka3.7以上版本开发的，我是使用3.7.4，上手还是比较快，里面的算法都是比较新，最重要的是它们号称state of art。MULAN的p

2016-12-06 19:53:44 693 2

转载 ML-kNN 多标签k近邻算法

学习张敏灵老师的《ML-kNN: a lazy learning approach to multi-label learning》的学习笔记。传统kNN k近邻算法(k-Nearest Neighbour, KNN)是机器学习中最基础，最简单的常用算法之一。其思想非常直接：如果一个样本在特征空间中的k个最相似(即特征空间中距离最邻近)的样本中的大多数属于某一个类别，则该

2016-12-05 16:28:34 5846

转载多标签分类（multilabel classification ）

这几天看了几篇相关的文章，写篇文章总结一下，就像个小综述一样，文章会很乱 1、multilabel classification的用途多标签分类问题很常见，比如一部电影可以同时被分为动作片和犯罪片，一则新闻可以同时属于政治和法律，还有生物学中的基因功能预测问题，场景识别问题，疾病诊断等。 2. 单标签分类在传统的单

2016-12-05 16:24:23 3025

转载机器学习(Machine Learning)&深度学习(Deep Learning)资料(下)

该资源的github地址:Qix《Statistical foundations of machine learning》介绍:《机器学习的统计基础》在线版，该手册希望在理论与实践之间找到平衡点，各主要内容都伴有实际例子及数据，书中的例子程序都是用R语言编写的。《A Deep Learning Tutorial: From Perceptrons to Deep Networks》

2016-12-05 15:35:26 761

转载机器学习(Machine Learning)&深度学习(Deep Learning)资料(中)

该资源的github地址:Qix《人工智能和机器学习领域有趣的开源项目》介绍：部分中文列表《机器学习经典算法详解及Python实现--基于SMO的SVM分类器》介绍:此外作者还有一篇元算法、AdaBoost　python实现文章《Numerical Optimization: Understanding L-BFGS》介绍:加州伯克利大学博士Aria Haghighi写

2016-12-05 15:34:46 455

转载机器学习(Machine Learning)&深度学习(Deep Learning)资料(上)

该资源的github地址:Qix《Brief History of Machine Learning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Adaboost到随机森林、Deep Learning.《Deep Learning in Neural Networks: An Overview》介绍:这是瑞士人工智能实验室Jurgen

2016-12-05 15:33:42 1367

原创 SimRank--基于结构的相似度度量方法学习笔记

详见：Glen Jeh 和 Jennifer Widom 的论文SimRank: A Measure of Structural-Context Similarity∗一、简介目前主要有两大类相似性度量方法： (1) 基于内容(content-based)的特定领域(domain-specific)度量方法，如匹配文本相似度，计算项集合的重叠区域等； (2) 基于链接（对象

2016-12-05 14:06:12 7263

原创度量学习

度量学习（Metric Learning）度量（Metric）的定义在数学中，一个度量（或距离函数）是一个定义集合中元素之间距离的函数。一个具有度量的集合被称为度量空间。度量学习（Metric Learning）也就是常说的相似度学习。距离测度学习的目的即为了衡量样本之间的相近程度，而这也正是模式识别的核心问题之一。大量的机器学习方法，比如K近邻、支持向量机、径向基函数网

2016-12-05 13:54:15 28538

转载各种距离

在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement)，这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究，甚至关系到分类的正确与否。　　本文的目的就是对常用的相似性度量作一个总结。本文目录：1.欧氏距离2.曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离

2016-12-05 10:28:13 305

转载核函数，再生核Hilbert空间，表示定理

在许许多多的分类模型中，线性模型f(x)=w⊤xf(x)=w⊤x是最为简单高效的一种，它最后可以得到一个线性分界面，如下图左图所示，但是在数据集S={x1,…,xm}, xi∈XS={x1,…,xm}, xi∈X非线性可分时，线性模型的分类精度不高。为了得到非线性分界面，提高分类精度，如下图右图所示，一个直观的想法就是构造一个映射ϕ:X↦Hϕ:X↦H，其中HH为Hilbert空

2016-12-05 10:19:00 7350 3

转载深入理解拉格朗日乘子法（Lagrange Multiplier) 和KKT条件

在求取有约束条件的优化问题时，拉格朗日乘子法（Lagrange Multiplier) 和KKT条件是非常重要的两个求取方法，对于等式约束的优化问题，可以应用拉格朗日乘子法去求取最优值；如果含有不等式约束，可以应用KKT条件去求取。当然，这两个方法求得的结果只是必要条件，只有当是凸函数的情况下，才能保证是充分必要条件。KKT条件是拉格朗日乘子法的泛化。之前学习的时候，只知道直接应用两个方法，但是却

2016-12-05 09:05:16 270

转载浅谈流形学习

转载自：http://blog.pluskid.org/?p=533&cpage=1#comments 此人写了一系列非常好的博客，强烈推荐。总觉得即使是“浅谈”两个字，还是让这个标题有些过大了，更何况我自己也才刚刚接触这么一个领域。不过懒得想其他标题了，想起来要扯一下这个话题，也是因为和朋友聊起我自己最近在做的方向。Manifold Learning 或者仅仅 Manifold 本身通常

2016-12-05 08:53:57 436

转载伯克利大学“机器学习(Practical Machine Learning)"课件及相关资料

Cousera上不去了，我们就看课件吧。伯克利大学的"Practical Machine Learning”课程，用Google翻译称之为“实用机器学习”，不能拍板这样翻译是否合适，就省略了前两个字。注意这个课不是Coursera上的，是伯克利自己的CS课，由大名鼎鼎的Michale Jordan教授主持，多位老师来授课，虽然没有视频，但是课件还是挺详细的，大家点击下面的链接后会有每节课相关的课件

2016-12-05 08:41:52 710

原创最小二乘法多项式曲线拟合原理与实现

概念最小二乘法多项式曲线拟合，根据给定的m个点,并不要求这条曲线精确地经过这些点，而是曲线y=f(x)的近似曲线y= φ(x)。原理[原理部分由个人根据互联网上的资料进行总结，希望对大家能有用] 给定数据点pi(xi,yi)，其中i=1,2,…,m。求近似曲线y= φ(x)。并且使得近似曲线与y=f(x)的偏差最小。近似曲线在点pi处的偏

2016-12-04 15:49:40 805

原创机器学习之最小二乘法

一.背景 5月9号到北大去听hulu的讲座《推荐系统和计算广告在视频行业应用》，传说中的项亮大神，后来主讲人在讲座中提到了最小二乘法，说这个是机器学习最基础的算法。回来赶紧上百度，搜了下什么是最小二乘法。先看下百度百科的介绍：最小二乘法（又称最小平方法）是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据

2016-12-04 15:14:24 550

xiaopihaierletian的博客