小胖子小胖子-CSDN博客

原创数据挖掘十大经典算法

十大经典算法1）C4.5决策树是一种依托决策而建立起来的一种树。是一种预测模型，代表的是一种对象属性与对象值之间的一种映射关系。每一个节点代表一个对象，树中的每一个分叉路径代表某个可能的属性值，而每一个叶子节点则对应从根节点到该叶子节点所经历的路径所代表的对象的值。决策树可以有单一输出，也可以有多个输出。C4.5是一种分类决策树算法，核心算法是ID3算法，是对其的改进。ID3（It

2017-09-25 15:19:14 1926

原创正则表达式基础教程

正则表达式是一个用来描述或匹配一些列符合某个句法规则的字符串的单个字符串。应用举例：防止SQL注入采集验证数据与通配符类似，正则表达式也是用来进行文本匹配的工具，只不过比起通配符，它能更精确地描述你的需求——当然，代价就是更复杂。假设你在一篇英文小说里查找hi，你可以使用正则表达式hi。不幸的是，很多单词里包含hi这两个连续的字符，比如him,history,hig

2017-06-09 19:56:54 853

转载 try catch finally的执行顺序

觉得这篇帖子总结得很好，这一类题目很容易出现在面试中，因此当做mark了结论：1、不管有木有出现异常，finally块中代码都会执行；2、当try和catch中有return时，finally仍然会执行；3、finally是在return后面的表达式运算后执行的（此时并没有返回运算后的值，而是先把要返回的值保存起来，管finally中的代码怎么样，返回的值都不会改变，任然是

2017-06-01 09:50:08 1087

原创 python数据分析与挖掘学习笔记（7）-交通路标自动识别实战与神经网络算法

这一节主要涉及神经网络算法，由此展开交通路标自动识别的应用。交通路标的自动识别其实就是一个分类问题。对于分类问题，我们有很多的方法来实现，比如KNN，贝叶斯等。关键点在于图片转文本。本节采用人工神经网络算法来进行识别。人工神经网络（Artificial Neural Network）是简称神经网络(NN)，是基于生物学中神经网络的基本原理，在理解和抽象了人脑结构和外界刺激响应机制后，以网络

2017-02-10 15:58:52 6388 3

原创 python数据分析与挖掘学习笔记（6）-电商网站数据分析及商品自动推荐实战与关联规则算法

这一节主要涉及到的数据挖掘算法是关联规则及Apriori算法。由此展开电商网站数据分析模型的构建和电商网站商品自动推荐的实现，并扩展到协同过滤算法。关联规则最有名的故事就是啤酒与尿布的故事，非常有效地说明了关联规则在知识发现和数据挖掘中起的作用和意义。其中有几个专用词的概念：支持度：A与B的支持度Support(A->B)表示为P（A and B）。支持度揭示了A与B同时出现的概率

2017-02-09 16:21:57 6798 1

原创 python数据分析与挖掘学习笔记（5）-公司客户价值判断分析与聚类算法

这一节是使用聚类算法来对公司客户价值进行判断和分析。提到聚类算法，大家应该都会想到是K-means。这是比较简单和经典的一种聚类算法。k-means聚类算法的原理比较简单，实现也容易，可以直接调用python的sklearn包中封装好的函数实现。这部分主要记录如何将聚类算法与显示案例应用联系起来判断和分析。对于这个项目的实现，在已知客户相关数据的情况下，需要发掘出忠实客户数

2017-02-09 14:23:22 3160 2

原创 python数据分析与挖掘学习笔记（4）-垃圾邮件自动识别

这是第四节的内容，主要为垃圾邮件自动识别与分类算法。简单来说，对于垃圾邮件的预测实际上就是一个分类问题，要实现垃圾邮件的预测，我们可以对垃圾邮件进行特征提取，然后进行分类实现。具体来说：1. 对邮件进行切词2. 构造词典3. 转为稀疏向量4. 实现贝叶斯算法5. 通过贝叶斯算法训练数据6. 通过贝叶斯算法测试数据贝叶斯算法的原理就是，对于已知类别，通过特征计算该

2017-02-08 17:22:42 7201 1

原创 python数据分析与挖掘学习笔记（3）_小说文本数据挖掘part2

接上一节。注：本文的所有路径都才用的是相对路径，读者请自行换成自己的绝对路径，保证文件可读取。要进行文本挖掘，需要引入gensim这个工具包，需要用到其中的语料库，模型，相似度等包。from gensim import corpora, models, similarities # corpora语料库import jiebafrom collections import def

2017-01-10 14:19:25 2510 1

原创 python数据分析与挖掘学习笔记（3）_小说文本数据挖掘part1

这一节主要是对小说文本数据的挖掘项目。文本挖掘的一个重要的应用是进行站点的个性化推荐。将用户感兴趣的信息推送给对应的用户，可以更好地发挥该信息的价值。比如，我们常常会在浏览网页的时候看到相关的广告是我们感兴趣的，新闻推送的是我们感兴趣的文章，阅读小说推荐的是我们想看的小说，逛淘宝的时候也会发现有一部分猜你喜欢，推荐的是你多半感兴趣的商品，等等。这都是文本挖掘以及相关信息挖掘的技术实

2017-01-10 12:52:42 5409

原创 python数据分析与挖掘学习笔记（2）-淘宝商品数据清洗及预处理

这一节开始就正式开始啦～～这一部分主要是针对淘宝的部分商品数据进行预处理。1. 读取商品源数据这里拿到的数据是sql数据，因此需要使用mysql。首先我们安装好mysql，可以直接通过指令安装：> sudo apt-get install mysql-server> apt-get install mysql-client> sudo apt-get install

2017-01-09 13:45:57 5714 1

原创 python数据分析与挖掘学习笔记（1）-基础及准备

小吐槽，最近听一个课，实话感觉老师讲课水平真不咋的，英文也是让人捉急。。口语简直可怕。。但是懒的时候也是有个学习思路的。不说题外话了，这个系列是记录一下用Python进行数据分析与挖掘的一些案例和实现。第一节就说一点简单的准备工作吧。1. 系统：系统我用的Ubuntu 14.04，当然随便换个系统都可以。 2. Python：Python的版本我使用的是3

2017-01-08 21:40:59 1464

原创 Ubuntu 14.04 64bit SparkR安装部署

要安装SparkR，首先需要安装好hadoop和Spark，这个安装前面两篇已经引用了详细的教程。值得注意的是，jdk也要确保安装正确，并且有一个默认的版本（如果安装过多个不同版本的jdk），可以通过sudo update-alternatives --config java进行查看和设置。本文只针对Ubuntu，其他的系统不一定有用。下面通过走过的弯路和具体的安装步骤进行一下记录

2016-11-08 11:04:40 1437 2

转载 Spark快速安装与简单入门_Ubuntu14.04 64bitx

Apache Spark 是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。Spark 正如其名，最大的特点就是快（Lightning-fast），可比 Hadoop MapReduce 的处理速度快 100 倍。此外，Spark 提供了简单易用的 API，几行代码就能实现 WordCount。本教程主要参考官网快速入门教程，介绍了 Spark 的安装，Spark shell 、RD

2016-11-07 08:58:02 2294

转载 Hadoop 2.x安装教程_单机/伪分布式配置_Ubuntu14.04 64bitx

最近需要跟进小组大势，所以学习一下Spark。本文提供一份Hadoop 2.x.x的详细教程，非常好用。按照流程来，基本没有问题。本教程由给力星出品，原文链接http://www.powerxing.com/install-hadoop/

2016-11-05 16:37:08 610

转载设置matlab画出的figure图像导出图片的大小

最近用 matlab画图，需要导出图片，但是发现经过拉伸或者改变了标注的位置以避免挡住图形之后，无法确保导出的每一张图片具有相同的大小。就算可以手动调整图片大小，由于白色背景，也无法确保图片并列起来之后在论文或者需要排版的文档中可以保持在同一直线上。因此，搜索问题，找到好的解决方案。转载至此，供翻阅。原文地址：http://nanokaleaf.blog.163.com/blog/s

2016-09-20 16:18:36 39136

翻译图像聚类-谱聚类

最近做的一个东西跟这个相关，本来希望是用深度学习对于没有标签的图像数据进行分类，但是通常情况下，深度学习是对有标签的数据进行学习，目的是用来自动提取特征，代替传统的手工提取特征。因此，比较容易想到，对于无标签又需要分类的图像数据，可以尝试先采用聚类来解决. 下面的内容是译自Jan Erik Solem的《Programming Computer Vision with Python

2016-07-15 11:25:57 10216

翻译图像聚类-层次聚类

最近做的一个东西跟这个相关，本来希望是用深度学习对于没有标签的图像数据进行分类，但是通常情况下，深度学习是对有标签的数据进行学习，目的是用来自动提取特征，代替传统的手工提取特征。因此，比较容易想到，对于无标签又需要分类的图像数据，可以尝试先采用聚类来解决. 下面的内容是译自Jan Erik Solem的《Programming Computer Vision with Python》的第6

2016-07-15 11:16:56 19296 19

翻译图像聚类-K均值聚类

最近做的一个东西跟这个相关，本来希望是用深度学习对于没有标签的图像数据进行分类，但是通常情况下，深度学习是对有标签的数据进行学习，目的是用来自动提取特征，代替传统的手工提取特征。因此，比较容易想到，对于无标签又需要分类的图像数据，可以尝试先采用聚类来解决.下面的内容是译自Jan Erik Solem的《Programming Computer Vision with Python》的第

2016-07-15 11:02:05 28246 4

原创 Ubuntu 14.04 + Caffe配置记录（CPU模式，无GPU，无Cuda）

对于使用深度学习进行图像处理，Caffe是一个不错的框架选择。但是安装起来，并不是如想象中容易，稍不注意就会出错。网上关于Ubuntu14.04下配置Caffe的资料很多，但是总是要自己亲自配置才能获得自己的心得。从操作系统的版本转换到cuda的版本等变换，加上一下bug，中途浪费了许多时间，折腾了一两天，终于还是配置成功了。具体参照的链接是：http://blog.csdn.net/

2016-07-01 20:13:47 78293 5

原创算法课笔记系列（九）——近似算法（Part1）

这一周的内容是近似算法(Approximation Algorithm)。对于许多的问题的算法，我们通常目标在于设计一个可以在多项式时间内运行的算法。然而，上一节的NP问题告诉我们这样的算法不一定存在。近似算法其实是针对NP难问题的一种退让，对于许多P不等于NP的最优化问题，无法在多项式时间内找到最优解。因此，如果可以只求一个我们可以接受的解，而不是非要最优解，那么可能存在一个多项式时间的算法

2016-06-01 17:11:33 28973 7

原创算法课笔记系列（八）——NP问题及其计算复杂性

本周的内容是NP问题，NP的全称是Non-deterministic Polynomial，即多项式复杂程度的非确定性问题。百度上对NP的解释是，P/NP问题是在理论信息学中计算复杂度理论里至今没有解决的问题。通俗的说，是将不可知的问题转化为已知的问题，进而计算器复杂度。首先介绍多项式时间的约减，即Polynomial-Time Reductions，通过解决另一个不同问题的假设的子程序，使用

2016-05-24 10:36:47 15121 4

原创算法课笔记系列（七）—— 平摊分析Amortized Analysis

本周的内容是Amortized Analysis，是对算法复杂度的另一种分析。它的基本概念是，给定一连串操作，大部分的操作是非常廉价的，有极少的操作可能非常昂贵，因此一个标准的最坏分析可能过于消极了。因此，其基本理念在于，当昂贵的操作也别少的时候，他们的成本可能会均摊到所有的操作上。如果人工均摊的花销仍然便宜的话，对于整个序列的操作我们将有一个更加严格的约束。本质上，均摊分析就是在最坏的场景下，对

2016-05-17 09:41:57 23643

原创写给失恋的人——如何走出来

在这个几月里，每一天对于我而言都变得无比的漫长，每一分每一秒过去的阴影和对她的思念都如影随形般缠绕在我的心头，我否定，我痛苦，我逃避，我悲伤。我明白一个人在失恋后究竟是何等的痛苦，我也完全理解那份对于过去的不舍，对她的时时牵挂，我更是清楚地知道在分手后一次次的试图去修复关系、一次次的渴望再次得到他的关注，却一次又一次的被冷漠的拒绝的心情是何等的卑微。没有人比我更懂得在心脏被划了

2016-05-16 16:09:33 3890

原创 Lucene原理与代码分析解读笔记

Lucene是一个基于Java的高效的全文检索库。那么什么是全文检索，为什么需要全文检索？目前人们生活中出现的数据总的来说分为两类：结构化数据和非结构化数据。很容易理解，结构化数据是有固定格式和结构的或者有限长度的数据，比如数据库，元数据等。非结构化数据则是不定长或者没有固定格式的数据，如图片，邮件，文档等。还有一种较少的分类为半结构化数据，如XML，HTML等，在一定程度上我们可以将其按

2016-05-13 19:22:07 6485

原创算法课笔记系列（六）—— 图（Part2）

这一周去了一趟说走就走的治疗之旅，所以算法课都没能上。跟上周一样，这一周的内容包含几个小部分，分别为最短路径动态规划、所有点对之间的最短路径和网络流。第一部分：最短路径动态规划对于一个有向图G=(V, E), 每一条边权重为cvw(权重可为负), 问题是找到从节点s到t的最短的路径。如果边的权重中有负值，则Dijkstra方法不适用。因此我们想到一个办法，给每一个权值加上一个正常数使得

2016-05-11 16:04:28 2452

原创算法课笔记系列（五）—— 图（Part1）

半期后开始的第一个算法是图。这部分内容蛮多的，老师也讲的很快。所以写作业之前还是先梳理一下。这部分会分为两次课，这是第一部分。首先是图里最简单和经典的深度优先搜索（Depth-FirstSearch）和广度优先搜索（Breadth-First Search）。先需要了解一个对图的遍历。输入一个图G=(V, E)， v ∈V，如果对从v出发的所有结点u都可达，那么VISITED(u)就设为t

2016-05-02 20:36:28 3244

原创 Latex所有常用数学符号整理

这段时间用Latex很多，常常需要查阅相关特殊的符号，这里做一个整理，也方便大家查阅。摘自：《一份不太简短的LATEX2介绍》或112分钟学会LATEX2 原版作者：Tobias Oetiker

2016-04-25 10:27:49 428720 14

原创算法课笔记系列（0）——Prologue and Notation

为了准备周四的期中考试，所以花时间复习前面知识的同时，也一并写一篇，就当做复习笔记了。这一部分主要介绍了一些基本的定义和数学的证明方法。首先，定义了集合的定义：集合是一些无序元素的集合，具有确定性、互异性和无序性。然后介绍了一部分集合的一些基本概念，如集合的基数，如|S|表示集合S的基数，即元素的个数；两个集合相等S=T是指S中每一个元素都在T中，T中的每个元素也都在S中；子集（可以包含空

2016-04-11 20:15:50 1548 2

原创算法课笔记系列（四）—— 动态规划

这两周都太忙，所以上周也没总结。这周一起补上。上周讲的是Matroid，一个非常抽象的概念，中文翻译为“拟阵”。这个内容放到下一篇博文中。这篇总结一下这周讲的“动态规划（Dynamic Programming，简称DP）”。动态规划可以应用在生物信息学，控制理论，信息理论，运筹学（Operations research）和计算机科学中的理论、图像、人工智能、编译器等等。首先，对着之前的算

2016-04-02 22:18:20 5704 2

原创算法课笔记系列（二）—— 贪心算法

贪心算法就是一种非常直观的算法，对于一个问题，只关心它目前最优的解决方案，不考虑未来的发展。但往往，这种只考虑现在的算法就是最优的算法。第一步将问题分为可分的一步一步，第二步对每一步进行当前的最优计算，第三部将得到的结果最优，往往是得到的全局最优的结果。下面还是通过课上讲解的几个例子来深入学习贪心算法。（1）区间调度如上图所示，第j个工作任务开始时间为sj，结束时间为fj。

2016-03-22 18:18:42 4926

转载 LeetCode – 4Sum (Java)题解

Given an array S of n integers, are there elements a, b, c, and d in S such that a + b + c + d = target? Find all unique quadruplets in the array which gives the sum of target.Note:Elements in a

2016-03-20 17:33:50 1340

转载 LeetCode – 3Sum — 题解

题干：Problem:Given an array S of n integers, are there elements a, b, c in S such that a + b + c = 0? Find all unique triplets in the array which gives the sum of zero.Note:Elements in

2016-03-19 22:04:56 993

转载 LeetCode – Two Sum (Java) —题解

题干：Given an array of integers, find two numbers such that they add up to a specific target number.The function twoSum should return indices of the two numbers such that they add up to the targ

2016-03-19 20:31:27 1419

原创算法课笔记系列（一）—— 分治算法

首先必须强调的是，我是个算法渣，多少年了~~还是渣/(ㄒoㄒ)/~~这学期在上英文算法课，机缘巧合选了英文，觉得老师讲得还不错，所以没换到中文。想要通过这样总结一下加深算法理解，考试时也方便复习。第一次课是对学习算法课需要的数学基础知识的复习，如集合以及集合的操作，函数，关系等，和一些数学证明方法的介绍，包括通过构造证明，通过对照证明（举反例，找矛盾），通过案例证明（可以理解为分情况讨论证

2016-03-16 22:54:13 6258 2

原创 R基础入门教程

由于一个项目原因，需要用到R对数据进行回归分析和数据挖掘，因此话半天时间对R进行了一个基础的学习。这是之前整理的网易云课程上的一个视频教程中整理的。这里贴出来，也提供给源代码下载地址（http://pan.baidu.com/s/1c1mV0Xy），方便大家直接在RStudio中执行测试，也方便自己和大家在学习过程中对基本的指令的查询。我刚发现，有可能第一次打开会出现乱码。这时候在RStu

2016-03-15 15:33:31 37419 1

转载高维数据的分析

随着科学技术的发展，人们在实际应用过程中经常会碰到各种类型的海量数据，如证券市场交易数据、多媒体图形图像视频数据、航天航空采集数据、生物特征数据等，这些数据在统计处理中通常称为高维数据。在分析高维数据过程中碰到最大的问题就是维数的膨胀，也就是通常所说的“维数灾难”问题。研究表明，当维数越来越多时，分析和处理多维数据的复杂度和成本成指数级增长。在分析高维数据时，所需的空间样本数会随维数的增加而呈

2016-02-22 20:30:07 14615 1

翻译 Fast Supervised Hashing with Decision Trees for High-Dimensional Data

用决策树处理高维数据的一种快速监督性哈希【摘要】监督性哈希旨在将原始特征映射成为能够保护汉明空间中基于标签的相似性的紧凑二进制编码。非线性哈希函数由于其强大的泛化能力而优于线性哈希函数。研究表明，核函数通常用来实现哈希中的非线性，并且以较缓慢的评估和训练时间作为代价可以实现良好的检索性能。本文分析了一种使用决策树来实现哈希的非线性方法，其评估和训练的速度快。首先提出对于哈希二进制编码推论问

2016-01-23 17:10:01 2137

原创哈希图像检索—图像数据集获取链接总结【Hashing数据集】

这段时间对于图像哈希进行了研究，之前相关的算法总结文件中也提到了一些数据集。想了解的朋友戳这里：http://blog.csdn.net/ying_xu/article/details/50532185这里对图像领域常用的数据集的获取做一个总结，具体的数据集的详细信息和使用方法都可以在链接中学习到，先就不赘述了。 1. The 【CIFAR-10】 datasethttp

2016-01-22 20:40:03 5971

原创 Spherical Hashing解读

Spherical Hashing是一种二进制编码嵌入技术，不同于现存的许多哈希技术，都是使用超平面来将数据点分离到两个不同的集合，并根据它们每一个点被分配到的集合，分配两个不同的二进制编码（+1或者-1），该技术使用一种超球面来分割数据点，使得仅仅用一个单一的超球面就可以在任意的高维空间中形成一个封闭的区域，使得比超平面必须使用d+1个平面才能在d维平面中构成封闭空间拥有更加强的空间封闭能力。

2016-01-22 17:20:55 1916

原创 MNIST数据集的gist特征提取（含全部实例代码下载地址）

这些天处理图像检索的一些benchmark数据集，今天处理了MNIST数据集，并对其进行了特征的提取。我的方法可能不一定是最优，但是按照这样的步骤来做，得到了我最后想要的特征数据结果。需要的朋友可以参考下。（MNIST数据集介绍官网：http://yann.lecun.com/exdb/mnist/，如果对这个数据集中的数据形式不了解，建议可以看一下）1. 首先，通过官网我

2016-01-21 18:17:00 10828 4

MNIST数据集的gist特征提取

基于内容的图像哈希检索算法研究综述_一些方法总结及描述

空空如也