2015年07月_mishidemudong

12月 11月 10月 09月 08月 07月 06月 05月

原创详解Hadoop核心架构

Hadoop核心架构通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程，以及数据仓库工具Hive和分布式数据库Hbase的介绍，基本涵盖了Hadoop分布式平台的所有技术核心。通过这一阶段的调研总结，从内部机理的角度详细分析，HDFS、MapReduce、Hbase、Hive是如何运行，以及基于Hadoop数据仓库的构建和分布式数据库内部

2015-07-31 22:15:15 9836

原创数据分析与数据仓库建模

第一部分数据分析师现在已经成为了一个热门的职位，高薪的吸引力让很多先要从事这方面工作的人趋之若鹜，各种数据培训课程的开设，但是重点都是在怎么学习算法、怎么进行数据处理，怎么保证通过数据模型可以更好对数据进行数据分析。但是对于想要从事数据分析的人来说，要知道还有其他更重要的知识。第一、对于数据模型的正确认识一个好的数据模型可以帮助企业预测未来的数据，这个模型是不是有效的，能不能

2015-07-30 22:42:31 5379

原创 Python函数大全

一、数学运算类abs(x)求绝对值1、参数可以是整型，也可以是复数2、若参数是复数，则返回复数的模complex([real[, imag]])创建一个复数divmod(a, b)分别取商和余数注意：整型、浮点型都可以float([x])将一个字符串或数转换为浮点数。如果无参数将返回0.

2015-07-30 20:26:29 2082

原创机器学习和统计模型的差异

在各种各样的数据科学论坛上这样一个问题经常被问到——机器学习和统计模型的差别是什么？这确实是一个难以回答的问题。考虑到机器学习和统计模型解决问题的相似性，两者的区别似乎仅仅在于数据量和模型建立者的不同。这里有一张覆盖机器学习和统计模型的数据科学维恩图。在这篇文章中，我将尽最大的努力来展示机器学习和统计模型的区别，同时也欢迎业界有经验的朋友对本文进行补充。在我开始之

2015-07-30 08:26:48 2128

转载一种面向高维数据的继承聚类算法

一种面向高维数据的集成聚类算法聚类集成已经成为机器学习的研究热点，它对原始数据集的多个聚类结果进行学习和集成，得到一个能较好地反映数据集内在结构的数据划分。很多学者的研究证明聚类集成能有效地提高聚类结果的准确性、鲁棒性和稳定性。本文提出了一种面向高维数据的聚类集成算法。该方法针对高维数据的特点，先用分层抽样的方法结合信息增益对每个特征簇选择合适数量比较重要的特征的生成新的具代表意义的数

2015-07-29 21:36:23 2586

原创现场手写编程strstr/strcpy

第一节、字符串查找题目描述：给定一个字符串A，要求在A中查找一个子串B。如A="ABCDF"，要你在A中查找子串B=“CD”。比较简单，相当于实现strstr库函数，参考代码如下：int strstr(char *string, char *substring){ if (string == NULL || substring == NULL) return -1;

2015-07-29 21:27:07 3218

原创 KMP算法通俗解释

1.　　首先，字符串"BBC ABCDAB ABCDABCDABDE"的第一个字符与搜索词"ABCDABD"的第一个字符，进行比较。因为B与A不匹配，所以搜索词后移一位。　　2.　　因为B与A不匹配，搜索词再往后移。　　3.　　就这样，直到字符串有一个字符，与搜索词的第一个字符相同为止。　　4.　　接着比较字符

2015-07-28 11:25:04 553

原创 Canopy聚类算法分析

Canopy聚类算法是可以并行运行的算法，数据并行意味着可以多线程进行，加快聚类速度，开源ML库Mahout使用。一、概念与传统的聚类算法(比如 K-means )不同，Canopy 聚类最大的特点是不需要事先指定 k 值( 即 clustering 的个数)，因此具有很大的实际应用价值。与其他聚类算法相比，Canopy聚类虽然精度较低，但其在速度上有很大优势，因此可以使用 C

2015-07-27 22:25:54 2154 4

转载逻辑回归及美团逻辑回归总结

什么是逻辑回归？Logistic回归与多重线性回归实际上有很多相同之处，最大的区别就在于它们的因变量不同，其他的基本都差不多。正是因为如此，这两种回归可以归于同一个家族，即广义线性模型（generalizedlinear model）。这一家族中的模型形式基本上都差不多，不同的就是因变量不同。如果是连续的，就是多重线性回归；如果是二项分布，就是Logistic回归；

2015-07-27 16:38:45 3631

在求取有约束条件的优化问题时，拉格朗日乘子法（Lagrange Multiplier) 和KKT条件是非常重要的两个求取方法，对于等式约束的优化问题，可以应用拉格朗日乘子法去求取最优值；如果含有不等式约束，可以应用KKT条件去求取。当然，这两个方法求得的结果只是必要条件，只有当是凸函数的情况下，才能保证是充分必要条件。KKT条件是拉格朗日乘子法的泛化。之前学习的时候，只知道直接应用两个方法，但是却

2015-07-27 16:02:58 1673

原创简述朴素贝叶斯估计

第一部分贝叶斯公式的基本形式为：第二部分朴素贝叶斯法的过程：（1）确定特征属性，架设每个属性之间是相互独立的。（2）分类器训练阶段：A对每个类别计算P（Yi） B对每个特征属性计算所有划分的条件概率P(X|Yi)；（3）分类器训练阶段：以P（Yi）* P(X|Yi) 最大分类项作为X所属的类别。简要的来说：对于给出的待分类项，求解此项出现的

2015-07-27 15:29:38 1054

转载准确率(Accuracy), 精确率(Precision), 召回率(Recall)和F1-Measure

自然语言处理(ML),机器学习(NLP),信息检索(IR)等领域,评估(Evaluation)是一个必要的工作,而其评价指标往往有如下几点:准确率(Accuracy),精确率(Precision),召回率(Recall)和F1-Measure。本文将简单介绍其中几个概念。中文中这几个评价指标翻译各有不同，所以一般情况下推荐使用英文。现在我先假定一个具体场景作为例子。

2015-07-27 11:29:17 4501

原创快排函数Patiton来求解第K大的数

利用快速排序的特点：第一遍排序会确定一个数的位置，这个数左边都比它大，右边都比他小（降序），当左边区间大于K时，说明我们求的第K大数在左边区间，这时我们可以舍弃右边区间，将范围缩小到左边区间从而重复上述过程，直到确定一个数的位置时，左边区间的小是K-1那么这个数字就是我们所求。用于快速排序升序时，是使得左边的数都比pivot小，右边的数都比pivot数大。区别只在于左右查找时的条件。下面贴

2015-07-26 16:31:24 700

转载生成模型和判别模型的理解

【摘要】 - 生成模型：无穷样本==》概率密度模型 = 产生模型==》预测 - 判别模型：有限样本==》判别函数 = 预测模型==》预测【简介】简单的说，假设o是观察值，q是模型。如果对P(o|q)建模，就是Generative模型。其基本思想是首先建立样本的概率密度模型，再利用模型进行推理预测。要求已知样本无穷或尽可能的大限制。这种方法一般建立在统计力学和

2015-07-24 16:15:14 3195

原创求两个升序序列的中位数

这里涉及到数据结构中顺序表的实现、删除、插入、查找等知识，请查看：数据结构 -> 线性表问题描述：一个长度为L (L>=1)的升序序列S，处在第[L/2]个位置的数称为S的中位数。例如，若序列S1=(11, 13, 15, 17, 19)，则S1的中位数是15，两个序列的中位数是含它们所有元素的升序序列的中位数。例如，若S2= (2, 4，6，8, 20)，则S1和S2的中位数是11。

2015-07-24 11:16:04 5992 4

原创第一个只出现一次的字符

这个题目可以看做是一类题型。就是从一个数组中找出不重复的第一个或是全部的数，或是在一个字符串当中找。另外还可以做成大数据的情况，例如，给你一亿或是几亿个数，32位的int类型，让你找出所有的不重复的数。基本思路有几个，第一个推荐的方法是位图BitMap，哈希表Hashtable。第二个方法是异或法，此方法在剑指offer中有介绍。下面详细来分析如何解决此类问题。HashTable法对于

2015-07-24 09:37:23 596

原创关系型数据库与NOSQL基本概念

关系型数据库与NOSQL关系型数据库把所有的数据都通过行和列的二元表现形式表示出来。关系型数据库的优势：1. 保持数据的一致性（事务处理）2.由于以标准化为前提，数据更新的开销很小（相同的字段基本上都只有一处）3. 可以进行Join等复杂查询其中能够保持数据的一致性是关系型数据库的最大优势。关系型数据库的不足：不擅长的处理1. 大量数据的写入处理

2015-07-23 22:11:09 848

转载 Hadoop学习之MapReduce框架

开始聊mapreduce，mapreduce是hadoop的计算框架，我学hadoop是从hive开始入手，再到hdfs，当我学习hdfs时候，就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关，我开始学习某一套技术总是想着这套技术到底能干什么，只有当我真正理解了这套技术解决了什么问题时候，我后续的学习就能逐步的加快，而学习hdfs时候我就发现，要理解hadoop框架

2015-07-22 17:03:29 563

原创 MySQL导入CSV格式文件

MYSQL LOAD DATA INFILE命令可以把csv平面文件中的数据导入到数据库中。linux下：LOAD DATA INFILE '/home/test/dump/ip_location.csv' INTO TABLE ip_location CHARACTER SET utf8 FIELDS TERMINATED BY ',' E

2015-07-22 09:06:40 646

原创 txt文件导入MySQL方法

MySQL写入数据通常用insert语句，如[c-sharp] view plaincopyinsert into person values(张三，20)，（李四，21），（王五，70）…; 但有时为了更快速地插入大批量数据或交换数据，需要从文本中导入数据或导出数据到文本。一、建立测试表，准备数据首先建

2015-07-22 08:49:34 1282

原创常用MySQL命令

1、连接Mysql格式： mysql -h主机地址 -u用户名－p用户密码1、连接到本机上的MYSQL。首先打开DOS窗口，然后进入目录mysql\bin，再键入命令mysql -u root -p，回车后提示你输密码.注意用户名前可以有空格也可以没有空格，但是密码前必须没有空格，否则让你重新输入密码。如果刚安装好MYSQL，超级用户root是没有密码的，故直接回车即

2015-07-21 16:48:47 360

转载十五道海量数据处理面试题

转载于研究者July,谢谢他的分享~ 以供查询第一部分、十五道海量数据处理面试题1. 给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？方案1：可以估计每个文件安的大小为50G×64=320G，远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。遍历文件a，对每个

2015-07-21 16:02:10 437

原创大端模式和小端模式

1. 什么是大端,什么是小端:所谓的大端模式，是指数据的低位保存在内存的高地址中，而数据的高位，保存在内存的低地址中；所谓的小端模式，是指数据的低位保存在内存的低地址中，而数据的高位保存在内存的高地址中。2.为什么会有大小端:为什么会有大小端模式之分呢？这是因为在计算机系统中，我们是以字节为单位的，每个地址单元都对应着一个字节，一个字节为8bit。但是在C语言中除了

2015-07-21 11:24:45 419

原创利用MySQLdb模块实现对数据库的简单操作

首先是数据库操作的步骤：1.和数据库建立连接2.执行sql语句,接收返回值3.关闭数据库连接0.引入MySQLdb库import MySQLdb1.和数据库建立连接conn=MySQLdb.connect(host="localhost",user="root",passwd="sa",db="mytable")提供的connect方法用来和数据库建立连接,

2015-07-20 15:49:33 848

原创 Python连接数据库并进行简单操作整理

下载安装MySQLdb如果已经安装了easy_install插件，那么就好说了，你想装什么库或是包，只需使用easy_install + 库，就可以了。但是遇到了这个问题：于是考虑直接用安装包来安装MySQLdb吧。我下的是这个版本，注意版本要跟python的版本一致： MySQL-python-1.2.3.win32-py2.7.exe

2015-07-20 09:30:13 1181

转载趣味描述之匈牙利算法

匈牙利算法是由匈牙利数学家Edmonds于1965年提出，因而得名。匈牙利算法是基于Hall定理中充分性证明的思想，它是部图匹配最常见的算法，该算法的核心就是寻找增广路径，它是一种用增广路径求二分图最大匹配的算法。-------等等，看得头大？那么请看下面的版本：通过数代人的努力，你终于赶上了剩男剩女的大潮，假设你是一位光荣的新世纪媒人，在你的手上有N个剩男，M个剩女，

2015-07-19 20:12:39 501

转载如何成为一名好员工

（一）好员工的素质好员工的类型有很多种，尝试着抽象出一个定义吧--好员工是那些主管分配其任务放心、同事喜欢与其共事、对自己工作负责、志在自我提升和价值实现的人。知识经济时代，好员工首先是做好自我管理的，终能独挡一面的个人（参见博文“怎样培养独挡一面的能力”）。作为半个程序员，姑且聊一聊好员工该具备的素质（部分针对程序员）。我认为，一个优秀员工的衡量要包含技能水平（技术宽度、

2015-07-18 14:30:46 903

原创进程与线程之间的区别和联系

1.定义进程是具有一定独立功能的程序关于某个数据集合上的一次运行活动,进程是系统进行资源分配和调度的一个独立单位.线程是进程的一个实体,是CPU调度和分派的基本单位,它是比进程更小的能独立运行的基本单位.线程自己基本上不拥有系统资源,只拥有一点在运行中必不可少的资源(如程序计数器,一组寄存器和栈),但是它可与同属一个进程的其他的线程共享进程所拥有的全部资源.

2015-07-15 23:08:09 517

转载 Oracle B-tree、位图、全文索引三大索引性能比较及优缺点汇总

引言：大家都知道“效率”是数据库中非常重要的一个指标，如何提高效率大家可能都会想起索引，但索引又这么多种，什么场合应该使用什么索引呢？哪种索引可以提高我们的效率，哪种索引可以让我们的效率大大降低（有时还不如全表扫描性能好）下面要讲的“索引”如何成为我们的利器而不是灾难！多说一点，由于不同索引的存储结构不同，所以应用在不同组织结构的数据上，本篇文章重点就是：理解不同的技术都适合在什么地方应用！

2015-07-15 11:40:39 586

原创搜集的十大开源推荐算法

搜集的十大协同过滤算法，仅供参考#1.SVDFeature主页：http://svdfeature.apexlab.org/wiki/Main_Page 语言：C++一个feature-based协同过滤和排序工具，由上海交大Apex实验室开发，代码质量较高。在KDD Cup 2012中获得第一名，KDD Cup 2011中获得第三名，相关论文发表在2012的JMLR

2015-07-14 15:48:22 8448

转载协同过滤算法实战

转载于ACdreamers，谢谢，仅供参考。 Contents 1. 协同过滤的简介 2. 协同过滤的核心 3. 协同过滤的实现 4. 协同过滤的应用 1. 协同过滤的简介关于协同过滤的一个最经典的例子就是看电影，有时候不知道哪一部电影是我们喜欢的或者评分比较高的，那

2015-07-14 15:36:09 1228

原创 Python实现一个简易的网页抓取程序

#coding=utf-8import urllibimport redef getHtml(url): page = urllib.urlopen(url) html = page.read() return htmldef getImg(html): reg = r'src="(.+?\.jpg)" pic_ext' imgre = re.c

2015-07-14 15:26:01 1281

转载机器学习中的数学-强大的矩阵奇异值分解(SVD)及其应用

2015-07-09 21:43:13 645

原创查找第一个只出现一次的字符

这类题目用到的思想就是就用哈希表，这样把字符串对应到一个数组，hashtable中。因为全部的字符总共有256个，因此建立一个hashtable[256]。算法的过程是这样的，首先遍历一遍字符串，根据字符的值来使得hashtable[字符]做统计，此字符出现一次，那么对应的数组元素加一。此时时间复杂度O(logn)。统计完各个字符出现的次数之后，找出次数为一的即可。时间复杂度O(logn)。所

2015-07-09 16:29:15 760

转载生成模型和判别模型

生成模型与判别模型监督学习的任务就是学习一个模型，应用这个模型，对给定的输入预测相应的输出。这个模型一般为决策函数：Y=f(X) 或条件概率分布：P(Y|X)。监督学习的学习方法可以分为生成方法（generative approach）和判别方法（discriminative approach）。所学到的模型分别叫生成模型和判别模型。生成方法定义由数据学习联合概

2015-07-08 16:45:28 421

转载 Libsvm使用心得

Libsvm使用心得首先下载Libsvm、Python和Gnuplot：l libsvm的主页http://www.csie.ntu.edu.tw/~cjlin/libsvm/上下载libsvm （我自己用2.86版本）l python的主页http://www.python.org下载 python （我自己用2.5版本）l gnu

2015-07-08 11:29:49 507

转载几种推荐算法的总结

基于内容的推荐编辑基于内容的信息推荐方法的理论依据主要来自于信息检索和信息过滤，所谓的基于内容的推荐方法就是根据用户过去的浏览记录来向用户推荐用户没有接触过的推荐项。主要是从两个方法来描述基于内容的推荐方法：启发式的方法和基于模型的方法。启发式的方法就是用户凭借经验来定义相关的计算公式，然后再根据公式的计算结果和实际的结果进行验证，然后再不断修改公式以达到最终目的。而对于模型的方法就是

2015-07-07 21:36:53 8368

转载阿里云ODPS的愿景、技术实现与难点

2014年1月，阿里云将其ODPS服务开放公测。2014年4月，阿里巴巴大数据竞赛的所有参赛者将在ODPS平台上进行算法的调试、测试；同月，ODPS也将开放更高级的功能进入公测。InfoQ中文站近日跟ODPS平台的技术负责人徐常亮进行了采访，交流了有关ODPS的愿景、技术实现、实现难点等话题。InfoQ：先介绍一下ODPS现在的情况吧。这个产品能做什么？徐常亮：ODPS

2015-07-07 15:39:00 1136

转载寻找两个数的和为定值的算法

题目：输入一个数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是O(n)。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组1、2、4、7、11、15和数字15。由于4+11=15，因此输出4和11。直接穷举，从数组中任意选取两个数，判定它们的和是否为输入的那个数字。此举复杂度为O（N^2）。很显然，我们要寻找效率更高的解法。题

2015-07-06 23:00:41 1038

转载数据仓库（DATA Warehouse）核心概念

数据仓库的个性概念理解自从1991 年数据仓库之父Bill Inmon 提出了数据仓库概念以来，数据仓库已从早期的探索走向实用阶段，进入了一个快速发展阶段。在此期间，全球经济急速发展，激烈的竞争、企业间频繁的兼并重组，使企业对信息的需求大大加剧，这是数据仓库发展的根本原因。当越来越多的企业开始重视数据资产的价值时，数据仓库也就成为必然的选择。目前企业面对经济增长减

2015-07-05 21:36:13 2042