2013年01月_普通网友

转载 MYSQL高效率地装载数据解决方案

很多时候关心的是优化SELECT 查询，因为它们是最常用的查询，而且确定怎样优化它们并不总是直截了当。相对来说，将数据装入数据库是直截了当的。然而，也存在可用来改善数据装载操作效率的策略，其基本原理如下：　　成批装载较单行装载更快，因为在装载每个记录后，不需要刷新索引高速缓存；可在成批记录装入后才刷新。　　在表无索引时装载比索引后装载更快。如果有索引，不仅必须增加记录到数据文件，而且还要修

2013-01-31 19:48:56 880

转载 python 进程间通信

python multiprocessingmultiprocessing在2.6才开始使用multiprocessing 是一个使用方法类似threading模块的进程模块。允许程序员做并行开发。并且可以在UNIX和Windows下运行。通过创建一个Process 类型并且通过调用call()方法spawn一个进程。一个比较简单的例子：#!/usr/bin/e

2013-01-29 12:13:50 23013 1

转载 hive 全排序优化

使用Hive可以高效而又快速地编写复杂的MapReduce查询逻辑。但是某些情况下，因为不熟悉数据特性，或没有遵循Hive的优化约定，Hive计算任务会变得非常低效，甚至无法得到结果。一个”好”的Hive程序仍然需要对Hive运行机制有深入的了解。有一些大家比较熟悉的优化约定包括：Join中需要将大表写在靠右的位置；尽量使用UDF而不是transfrom……诸如此类。下面讨论5个性能和逻辑相关

2013-01-28 20:11:39 3608

转载相似图片搜索的原理

上个月，Google把 "相似图片搜索"正式放上了首页。你可以用一张图片，搜索互联网上所有与它相似的图片。点击搜索框中照相机的图标。一个对话框会出现。你输入网片的网址，或者直接上传图片，Google就会找出与其相似的图片。下面这张图片是美国女演员Alyson Hannigan。上传后，Google返回如下结果：类似的"相似图片搜索引擎"还有不少，TinEye甚至可以

2013-01-25 10:28:00 382

原创 kd树学习

1： sfit 算法： http://www.cnblogs.com/saintbird/archive/2008/08/20/1271943.html2：用于图像搜索和匹配的SIFT算法介绍： http://www.open-open.com/lib/view/open1325331983780.html3: 相似图片搜索的原理 http://www.o

2013-01-24 19:57:20 372

转载从K近邻算法、距离度量谈到KD树、SIFT+BBF算法

从K近邻算法、距离度量谈到KD树、SIFT+BBF算法前言前两日，在微博上说：“到今天为止，我至少亏欠了3篇文章待写：1、KD树；2、神经网络；3、编程艺术第28章。你看到，blog内的文章与你于别处所见的任何都不同。于是，等啊等，等一台电脑，只好等待..”。得益于田，借了我一台电脑（借他电脑的时候，我连表示感谢，他说“能找到工作全靠你的博客，这点儿小忙

2013-01-24 19:39:57 1635 2

转载 k-d tree算法

http://www.cnblogs.com/eyeszjwang/articles/2429382.html　　　k-d树（k-dimensional树的简称），是一种分割k维数据空间的数据结构。主要应用于多维空间关键数据的搜索（如：范围搜索和最近邻搜索）。应用背景　　SIFT算法中做特征点匹配的时候就会利用到k-d树。而特征点匹配实际上就是一个通过距离函数在高维矢量

2013-01-24 19:38:22 467

转载 mysql中的load data infile用法

LOAD DATA [LOW_PRIORITY] [LOCAL] INFILE 'file_name.txt' [REPLACE | IGNORE] INTO TABLE tbl_name [FIELDS [TERMINATED BY '\t'] [OPTIONALLY] ENCLOSED BY ''] [ESCAPED B

2013-01-24 10:43:13 44918 1

转载 MYSQL数据文件--.frm文件(表结构恢复)

了解MYSQL的都知道，在MYSQL中建立任何一张数据表，在其数据目录对应的数据库目录下都有对应表的.frm文件,.frm文件是用来保存每个数据表的元数据(meta)信息，包括表结构的定义等，.frm文件跟数据库存储引擎无关，也就是任何存储引擎的数据表都必须有.frm文件，命名方式为数据表名.frm，如user.frm. .frm文件可以用来在数据库崩溃时恢复表结构。下面说说如何通过

2013-01-23 17:20:20 901

转载网管工具 dstat

dstat 是一个用来替换 vmstat, iostat, netstat, nfsstat 和 ifstat 这些命令的工具，是一个全能系统信息统计工具。

2013-01-23 16:44:08 1242

转载 iostat介绍

1．磁盘I/O性能监控命令1)iostat命令iostat 命令主要通过观察物理磁盘的活动时间以及他们的平均传输速度，监控系统输入 / 输出设备负载。根据 iostat 命令产生的报告，用户可确定一个系统配置是否平衡，并据此在物理磁盘与适配器之间更好地平衡输入 / 输出负载。iostat 工具的主要目的是通过监控磁盘的利用率，而探测到系统中的 I/O 瓶颈。不同操作系统命令格式输出

2013-01-23 16:36:41 448

转载内存映射文件原理探索

一直都对内存映射文件这个概念很模糊，不知道它和虚拟内存有什么区别，而且映射这个词也很让人迷茫，今天终于搞清楚了。。。下面，我先解释一下我对映射这个词的理解，再区分一下几个容易混淆的概念，之后，什么是内存映射就很明朗了。原理首先，“映射”这个词，就和数学课上说的“一一映射”是一个意思，就是建立一种一一对应关系，在这里主要是只硬盘上文件的位置与进程逻辑地

2013-01-22 18:34:04 374

转载从Hadoop框架与MapReduce模式中谈海量数据处理（含淘宝技术架构）

从hadoop框架与MapReduce模式中谈海量数据处理前言几周前，当我最初听到，以致后来初次接触Hadoop与MapReduce这两个东西，我便稍显兴奋，觉得它们很是神秘，而神秘的东西常能勾起我的兴趣，在看过介绍它们的文章或论文之后，觉得Hadoop是一项富有趣味和挑战性的技术，且它还牵扯到了一个我更加感兴趣的话题：海量数据处理。由此，最近凡是空

2013-01-15 10:42:54 568

HDFS采用了主从（Master/Slave）结构模型，一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器，管理文件系统的命名空间和客户端对文件的访问操作；集群中的DataNode管理存储的数据。HDFS允许用户以文件的形式存储数据。从内部来看，文件被分成若干个数据块，而且这若干个数据块存放在一组DataNode上。NameNode执行文件系统

2013-01-11 18:22:51 762

转载探索推荐引擎内部的秘密，第 1 部分: 推荐引擎初探

出自： http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy1/index.html?ca=drs-简介：随着 Web 技术的发展，使得内容的创建和分享变得越来越容易。每天都有大量的图片、博客、视频发布到网上。信息的极度爆炸使得人们找到他们需要的信息将变得越来越难。传统的搜索技术是一个相对简单的帮助人们找到信息的

2013-01-10 17:44:24 495

转载线型感知机

1、判别分类模型假设输入空间X中的每个特征x取值为实数集，输出空间y = {-1,+1}，那么一个分类器可以表示为二值函数其中输出值为1的样本为正例，输出值为-1的样本为负例。线性感知机的假设前提是样本空间线性可分，既有一个超平面能够将特征空间划分为两个部分 2、感知机模型若给定的向量特征向量X带入g(x) 0则样本为正例，

2013-01-10 12:06:44 640

meeasyhappy的专栏