2015年11月_Virtual_Func

转载 HDFS 简介

文章转载：点击打开链接简介HDFS（Hadoop Distributed File System ）Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS（Google File System）Google 文件系统（中文，英文）。HDFS有很多特点： ① 保存多个副本，且提供容错机制，副本丢失或宕机自动恢复。默认存3份。

2015-11-26 19:32:08 503

转载 hadoop datanode 打不开

hadoop datanode启动不起来转自：http://book.51cto.com/art/201110/298602.htm 如果大家在安装的时候遇到问题，或者按步骤安装完后却不能运行Hadoop，那么建议仔细查看日志信息，Hadoop记录了详尽的日志信息，日志文件保存在logs文件夹内。无论是启动，还是以后会经常用到的MapReduce中的每一个job，以及HDFS等相

2015-11-24 22:55:21 1016

转载 CUDA 的 Threading：Block 和 Grid 的設定與 Warp

前面扯了很多，不過大多都是在講 CUDA 在軟體層面的東西；接下來，雖然 Heresy 自己也不熟，不過還是來研究一下硬體的部分吧～畢竟要最佳化的時候，好像還是要大概知道一下相關的東西的。這部分主要參考資料是：[Hotball's Hive]GPU 的硬體架構Programming Massively Parallel Processors 的 Le

2015-11-24 17:12:40 642

转载几种C++分词软件

本文不是专业的介绍中文的知识，只是由于项目上可能需要中文分词，在网上找了一些资料，再次记录一下。主要参考网站是oschina里面收录的内容：中科院中文分词 ICTCLAS这个据说效率挺高，但不是纯开源版本，里面有个文章12年7月1日失效，就是由于授权协议失效，所以要用到这个类库的时候要小心了，当然你可以购买版权。还有一个重要的问题是官网打不开。http:

2015-11-22 20:24:20 1399

原创初次使用 Hadoop Streaming 的过程（遇到各种各样的问题）

写搜索引擎希望能尝试使用hadoop 来进行分布式查找结果，并顺便学学老早就想学的 hadoop。花了两个晚上的时间倒腾，总算跑出了第一个结果。。虽然很累，还是挺好的。下面陈列一下遇到的问题，希望对自己或者别人都能有些帮助。我自己用的是C++，在 win10 上用 vmware 装了 ubuntu 14.04 的虚拟机，然后装了 hadoop，没有使用 eclipse，因此选择学习的是 had

2015-11-19 23:54:57 1670

转载 sizeof问题

下面仅为个人理解，编译器中验证外，没有任何理论依靠，若有错误请指出。首先，sizeof是一个关键字并不是一个函数。或许你有疑问，既然是一个关键字，为什么出现sizeof的时候后面操作对象都加上括号哪？原因如下。1. sizeof int ，结果为4，说明 sizeof说明他不是一个函数。2.siezof(int )是关键字，为什么分开标记，

2015-11-18 10:01:16 451

原创 STL中 copy 的结构图

本来要详细写 copy的实现的，但是最近没空，就先放上之前画的结构图，有空再补

2015-11-14 11:19:38 421

原创 using声明与using指示的区别（在作用域上）

在《C++ Primer》第五版十八章中详细描述了 using 指示与 Using 声明的区别，个人也想了好久。首先，明确一下 using 声明与指示using 声明： using std::cout;using 指示： using namespace std;1.初步展示区别在我们通常的理解下，using 声明引入了一个名字，在声明之后的作用域中，所有用到该名字的地方，都是指的改

2015-11-13 12:41:50 2817 2

原创 python搜索引擎之搜索系统的建立——根据关键字命中次数排分给出前若干个答案

根据前面的博客建立了如下的各种索引库的表：1.词典（对每个关键字分配一个 wordId）词典放在命名为 backwardTableDb.db 中的 wordIdTable 中，见部分字典截图如下：2.建立后向索引，及相关表项后向索引有两个表项，其中第一个表项是后向索引表，其指定每个wordId，以及出现过该关键字的doc 的数量，同时还有该关键字的 doc

2015-11-13 00:09:28 1703

转载关于类的前向声明

前向声明的定义：有些时候我们可以声明一些类但是并不去定义它，当然这个类的作用也很有限了。比如class foo;声明一个foo类，这个声明，有时候也叫做前向声明(forward declaration)，在声明完这个foo类之后，定义完这个foo类之前的时期，foo类是一个不完全的类型(incomplete type)，也就是说foo类是一个类型，但是这个类型的一些性质(比如包含哪

2015-11-11 22:59:32 436

原创字面值常量的知识点

1.每个字面值常量都是有类型的整型字面值常量：在没有指定时，整型字面值常量的类型是 int ,long,longlong 中能存储的最小尺寸。（short 类型没有对应的字面值）浮点型字面值常量：在没有指定时，默认是 double 类型字符串字面值常量：类型为 char[n] *... 其中每个字面值常量的类型都是可以通过加前缀或后缀进行指定2.字符串字面值串接在C

2015-11-10 11:56:21 760

原创 C++中 0 与 NULL 与 nullptr之间的关系，nullptr_t 的实现

参考了网上各种资料，理清楚了 0 与 NULL 以及 nullptr 的关系。1.从本质上 1) 0是int型的字面值常量 2) NULL 是预处理变量，定义在 cstdlib 中，其值是0 3) nullptr 是 nullptr_t 类型的字面值。2.cstdlib 中 NULL 的定义　　#ifdef __cplusplus　　#define NULL 0

2015-11-10 11:40:46 1378 3

原创关于引用与指针，引用的实现

对引用的理解首先是根据《C++ primre》第五版中的解释，其次是我个人根据网上的资料，对C++实现引用本质的理解。下面分为两部分，首先理解引用体现出来的性质，其次是关于引用的具体实现。1.引用具体表现行为a.引用的定义：“引用为对象起了另外一个名字，引用类型将引用另外一种类型”—— 《C++ primer》5也就是说引用本身不是一个对象，而是其初始值的一个别名。b.引用的行

2015-11-10 11:04:41 818

原创仿函数存在的原因

我们知道仿函数是仅重载了括号操作符，且定义了若干相应型别的类。仿函数存在的意义，是为了能提取出仿函数中定义的相应型别，使仿函数能与函数适配器进行配接，而这些相应型别则主要是用来表现函数参数类型与传回值类型。函数指针因为没有相应型别而不能与STL 中别的组件进行搭配。因此，仿函数的相应型别是一个很重要的因子。STL 中定义了两个类，分别代表一元仿函数和二元仿函数，其中没有任何数据成员或函数成

2015-11-08 23:21:31 1052

原创 vector中不能存放引用类型!!!!!!!!

关于 vector 中不能存放引用，这是一个在初始C++时候就应该知道的问题，但是我居然没注意，还好及时发现了。《C++ primer》上说 vector 中不能存放引用的原因是：引用不支持一般意义上的赋值操作，而 vector中元素的两个要求是：１.元素必须能赋值２.元素必须能复制int a = 1;int c = 2;int & b = a;b = c;

2015-11-08 23:06:20 13839

原创 Python 列表中存储类对象时按照指定属性进行排序——用于正排表的排序

搜索引擎中，在建立了正排表后需要对正排表按照wordId进行排序，且该排序要保持稳定的特性。因此想到了在 python 的列表中存储一个类，通过指定类的某个属性来进行排序。具体代码如下：1.首先定义类，按照需求定义：class pageObj: url = '' docId = 0 def __init__(self,U,Id): self

2015-11-05 18:08:01 8040

原创 python中函数参数是引用还是传值

在《python核心编程》中看到：“python 是通过引用调用的，... ，但对不可变对象而言，函数的行为将类似按值传递”。但是我尝试编写以下函数，输出却不是如料想的：def func(x): x = x * 2 print "local x : " ,x#############x = 1func(x)print "global x : ", x 这段代码的

2015-11-04 18:47:43 724

转载 python与数据库

文章转自：http://www.cnblogs.com/vamei/p/3794388.htmlPython自带一个轻量级的关系型数据库SQLite。这一数据库使用SQL语言。SQLite作为后端数据库，可以搭配Python建网站，或者制作有数据存储需求的工具。SQLite还在其它领域有广泛的应用，比如HTML5和移动端。Python标准库中的sqlite3提供该数据库的接口。我将

2015-11-03 22:33:07 716

转载 jieba分词

文章转自：http://www.oschina.net/p/jiebajieba"结巴"中文分词：做最好的Python中文分词组件 "Jieba" Feature支持三种分词模式：精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式

2015-11-03 22:30:03 1108

原创搜索引擎数据源爬取——python scrapy

我选取的是爬取百度知道的html 作为我的搜索源数据，目前先打算做网页标题的搜索，选用了 python 的 scrapy 库来对网页进行爬取，爬取网页的标题，url，以及html，用sqlist3来对爬取的数据源进行管理。爬取的过程是一个深度优先的过程，设定四个起始 url ，然后维护一个数据库，数据库中有两个表，一个 infoLib，其中存储了爬取的主要信息：标题，url ，html；另一个

2015-11-03 21:54:08 3928

转载 SGI_sort,sort

文章转自：http://www.cnblogs.com/imAkaka/articles/2407877.htmlSTL的sort()算法，数据量大时采用Quick Sort，分段递归排序，一旦分段后的数据量小于某个门槛，为避免Quick Sort的递归调用带来过大的额外负荷，就改用Insertion Sort。如果递归层次过深，还会改用Heap Sort。本文先分别介绍这个三个S

2015-11-03 11:37:55 453

原创 scrapy 中 ImportError: No mudle name items

今天写python代码，用 scrapy 建的项目，写了一个爬百度知道的程序，scrapy crawl zhidao。一直报错说 ImportError: No mudle name items 。后来网上找了许久资料，才发现问题是 spider 文件夹下的 .py文件不能与项目名相同！！！汗！

2015-11-02 18:49:19 794

转载在VS2010下配置OpenCV 2.3

本人在2013下配置opencv3步骤与下面的基本差不多文章转自：http://dczxxuhai.blog.163.com/blog/static/172216907201172624243741/一、下载OpenCV 2.3： http://www.opencv.org.cn/download/OpenCV-2.3.0-win-superpack.exe

2015-11-02 16:35:58 730

原创犯过的C++错误: vector::swap()函数

在知乎上看到一个问题，问一下代码为什么错：//...vector x;//....x.swap(vector(x)); //错误出现的地方我的错误解答是：因为 vector(x) 产生了一个临时对象，将该临时对象与 X 进行 swap 操作，交换了对方的三个指针(first,end,finish)，指向分配的内存空间，然后再该语句结束后，临时对象被释放掉，所以此时 x

2015-11-01 16:51:08 6444

转载 scrapy研究探索（二）——爬w3school.com.cn

文章转自:http://blog.csdn.net/u012150179/article/details/32911511下午被一个问题困扰了好一阵，最终使用另一种方式解决。开始教程二，关于Scrapy安装、介绍等请移步至教程（一）（http://blog.csdn.net/u012150179/article/details/32343635）。在开始之前假设你已经成功安

2015-11-01 16:36:20 1319

原创 STL 中 lower_bound 与 upper_bound 与二分查找

首先，先说明 lower_bound 与 upper_bound 的含义。对于区间 [first,last) 内的元素：1.lower_bound ：寻找最远的 i，使得 [ first, i ) 中的每个迭代器 j 都满足 *j 2.upper_bound：寻找最远的 i，使得 [ first, i ) 中的每个迭代器 j 都不满足 *j > value示例：序列： 1,

2015-11-01 12:07:18 794

Virtual_Func的博客