自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

转载 HDFS 简介

文章转载:点击打开链接简介HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。HDFS有很多特点:    ① 保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。    

2015-11-26 19:32:08 503

转载 hadoop datanode 打不开

hadoop datanode启动不起来转自:http://book.51cto.com/art/201110/298602.htm 如果大家在安装的时候遇到问题,或者按步骤安装完后却不能运行Hadoop,那么建议仔细查看日志信息,Hadoop记录了详尽的日志信息,日志文件保存在logs文件夹内。 无论是启动,还是以后会经常用到的MapReduce中的每一个job,以及HDFS等相

2015-11-24 22:55:21 1016

转载 CUDA 的 Threading:Block 和 Grid 的設定與 Warp

前面扯了很多,不過大多都是在講 CUDA 在軟體層面的東西;接下來,雖然 Heresy 自己也不熟,不過還是來研究一下硬體的部分吧~畢竟要最佳化的時候,好像還是要大概知道一下相關的東西的。這部分主要參考資料是:[Hotball's Hive]GPU 的硬體架構Programming Massively Parallel Processors 的 Le

2015-11-24 17:12:40 642

转载 几种C++分词软件

本文不是专业的介绍中文的知识,只是由于项目上可能需要中文分词,在网上找了一些资料,再次记录一下。主要参考网站是oschina里面收录的内容:中科院中文分词 ICTCLAS这个据说效率挺高,但不是纯开源版本,里面有个文章12年7月1日失效,就是由于授权协议失效,所以要用到这个类库的时候要小心了,当然你可以购买版权。还有一个重要的问题是官网打不开。http:

2015-11-22 20:24:20 1399

原创 初次使用 Hadoop Streaming 的过程(遇到各种各样的问题)

写搜索引擎希望能尝试使用hadoop 来进行分布式查找结果,并顺便学学老早就想学的 hadoop。花了两个晚上的时间倒腾,总算跑出了第一个结果。。虽然很累,还是挺好的。下面陈列一下遇到的问题,希望对自己或者别人都能有些帮助。我自己用的是C++,在 win10 上用 vmware 装了 ubuntu 14.04 的虚拟机,然后装了 hadoop,没有使用 eclipse,因此选择学习的是 had

2015-11-19 23:54:57 1670

转载 sizeof问题

下面仅为个人理解,编译器中验证外,没有任何理论依靠,若有错误请指出。         首先,sizeof是一个关键字并不是一个函数。或许你有疑问,既然是一个关键字,为什么出现sizeof的时候后面操作对象都加上括号哪?原因如下。1. sizeof int ,结果为4,说明 sizeof说明他不是一个函数。2.siezof(int )是关键字,为什么分开标记,

2015-11-18 10:01:16 451

原创 STL中 copy 的结构图

本来要详细写 copy的实现的,但是最近没空,就先放上之前画的结构图,有空再补

2015-11-14 11:19:38 421

原创 using声明与using指示的区别(在作用域上)

在《C++ Primer》第五版十八章中详细描述了 using 指示与 Using 声明的区别,个人也想了好久。首先,明确一下 using 声明与指示using 声明: using std::cout;using 指示: using namespace std;1.初步展示区别在我们通常的理解下,using 声明引入了一个名字,在声明之后的作用域中,所有用到该名字的地方,都是指的改

2015-11-13 12:41:50 2817 2

原创 python搜索引擎之搜索系统的建立——根据关键字命中次数排分给出前若干个答案

根据前面的博客建立了如下的各种索引库的表:1.词典(对每个关键字分配一个 wordId)词典放在命名为 backwardTableDb.db 中的 wordIdTable 中,见部分字典截图如下:2.建立后向索引,及相关表项后向索引有两个表项,其中第一个表项是后向索引表,其指定每个wordId,以及出现过该关键字的doc 的数量,同时还有该关键字的 doc

2015-11-13 00:09:28 1703

转载 关于类的前向声明

前向声明的定义:有些时候我们可以声明一些类但是并不去定义它,当然这个类的作用也很有限了。比如class foo;声明一个foo类,这个声明,有时候也叫做前向声明(forward declaration),在声明完这个foo类之后,定义完这个foo类之前的时期,foo类是一个不完全的类型(incomplete type),也就是说foo类是一个类型,但是这个类型的一些性质(比如包含哪

2015-11-11 22:59:32 436

原创 字面值常量的知识点

1.每个字面值常量都是有类型的整型字面值常量:在没有指定时,整型字面值常量的类型是 int ,long,longlong 中能存储的最小尺寸。(short 类型没有对应的字面值)浮点型字面值常量:在没有指定时,默认是 double 类型字符串字面值常量:类型为 char[n] *... 其中每个字面值常量的类型都是可以通过加前缀或后缀进行指定2.字符串字面值串接在C

2015-11-10 11:56:21 760

原创 C++中 0 与 NULL 与 nullptr之间的关系,nullptr_t 的实现

参考了网上各种资料,理清楚了 0 与 NULL 以及 nullptr 的关系。1.从本质上 1) 0是int型的字面值常量 2) NULL 是预处理变量,定义在 cstdlib 中,其值是0 3) nullptr 是 nullptr_t 类型的字面值。2.cstdlib 中 NULL 的定义  #ifdef __cplusplus  #define NULL 0

2015-11-10 11:40:46 1378 3

原创 关于引用与指针,引用的实现

对引用的理解首先是根据《C++ primre》第五版中的解释,其次是我个人根据网上的资料,对C++实现引用本质的理解。下面分为两部分,首先理解引用体现出来的性质,其次是关于引用的具体实现。1.引用具体表现行为a.引用的定义:“引用为对象起了另外一个名字,引用类型将引用另外一种类型”—— 《C++ primer》5也就是说引用本身不是一个对象,而是其初始值的一个别名。b.引用的行

2015-11-10 11:04:41 818

原创 仿函数存在的原因

我们知道仿函数是仅重载了括号操作符,且定义了若干相应型别的类。仿函数存在的意义,是为了能提取出仿函数中定义的相应型别,使仿函数能与函数适配器进行配接,而这些相应型别则主要是用来表现函数参数类型与传回值类型。函数指针因为没有相应型别而不能与STL 中别的组件进行搭配。因此,仿函数的相应型别是一个很重要的因子。STL 中定义了两个类,分别代表一元仿函数和二元仿函数,其中没有任何数据成员或函数成

2015-11-08 23:21:31 1052

原创 vector中不能存放引用类型!!!!!!!!

关于 vector 中不能存放引用,这是一个在初始C++时候就应该知道的问题,但是我居然没注意,还好及时发现了。《C++ primer》上说 vector 中不能存放引用的原因是:引用不支持一般意义上的赋值操作,而 vector中元素的两个要求是:1.元素必须能赋值2.元素必须能复制int a = 1;int c = 2;int & b = a;b = c;

2015-11-08 23:06:20 13839

原创 Python 列表中存储类对象时按照指定属性进行排序——用于正排表的排序

搜索引擎中,在建立了正排表后需要对正排表按照wordId进行排序,且该排序要保持稳定的特性。因此想到了在 python 的列表中存储一个类,通过指定类的某个属性来进行排序。具体代码如下:1.首先定义类,按照需求定义:class pageObj: url = '' docId = 0 def __init__(self,U,Id): self

2015-11-05 18:08:01 8040

原创 python中函数参数是引用还是传值

在《python核心编程》中看到:“python 是通过引用调用的,... ,但对不可变对象而言,函数的行为将类似按值传递”。但是我尝试编写以下函数,输出却不是如料想的:def func(x): x = x * 2 print "local x : " ,x#############x = 1func(x)print "global x : ", x 这段代码的

2015-11-04 18:47:43 724

转载 python与数据库

文章转自:http://www.cnblogs.com/vamei/p/3794388.htmlPython自带一个轻量级的关系型数据库SQLite。这一数据库使用SQL语言。SQLite作为后端数据库,可以搭配Python建网站,或者制作有数据存储需求的工具。SQLite还在其它领域有广泛的应用,比如HTML5和移动端。Python标准库中的sqlite3提供该数据库的接口。我将

2015-11-03 22:33:07 716

转载 jieba分词

文章转自:http://www.oschina.net/p/jiebajieba"结巴"中文分词:做最好的Python中文分词组件 "Jieba" Feature支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;搜索引擎模式

2015-11-03 22:30:03 1108

原创 搜索引擎数据源爬取——python scrapy

我选取的是爬取百度知道的html 作为我的搜索源数据,目前先打算做网页标题的搜索,选用了 python 的 scrapy 库来对网页进行爬取,爬取网页的标题,url,以及html,用sqlist3来对爬取的数据源进行管理。爬取的过程是一个深度优先的过程,设定四个起始 url ,然后维护一个数据库,数据库中有两个表,一个 infoLib,其中存储了爬取的主要信息:标题,url ,html;另一个

2015-11-03 21:54:08 3928

转载 SGI_sort,sort

文章转自:http://www.cnblogs.com/imAkaka/articles/2407877.htmlSTL的sort()算法,数据量大时采用Quick Sort,分段递归排序,一旦分段后的数据量小于某个门槛,为避免Quick Sort的递归调用带来过大的额外负荷,就改用Insertion Sort。如果递归层次过深,还会改用Heap Sort。本文先分别介绍这个三个S

2015-11-03 11:37:55 453

原创 scrapy 中 ImportError: No mudle name items

今天写python代码,用 scrapy 建的项目,写了一个爬百度知道的程序,scrapy crawl zhidao。一直报错说 ImportError: No mudle name items 。后来网上找了许久资料,才发现问题是 spider 文件夹下的 .py文件不能与项目名相同!!!汗!

2015-11-02 18:49:19 794

转载 在VS2010下配置OpenCV 2.3

本人在2013下配置opencv3步骤与下面的基本差不多文章转自:http://dczxxuhai.blog.163.com/blog/static/172216907201172624243741/一、下载OpenCV 2.3:      http://www.opencv.org.cn/download/OpenCV-2.3.0-win-superpack.exe

2015-11-02 16:35:58 730

原创 犯过的C++错误: vector::swap()函数

在知乎上看到一个问题,问一下代码为什么错://...vector x;//....x.swap(vector(x)); //错误出现的地方我的错误解答是:因为 vector(x) 产生了一个临时对象,将该临时对象与 X 进行 swap 操作,交换了对方的三个指针(first,end,finish),指向分配的内存空间,然后再该语句结束后,临时对象被释放掉,所以此时 x

2015-11-01 16:51:08 6444

转载 scrapy研究探索(二)——爬w3school.com.cn

文章转自:http://blog.csdn.net/u012150179/article/details/32911511下午被一个问题困扰了好一阵,最终使用另一种方式解决。开始教程二,关于Scrapy安装、介绍等请移步至教程(一)(http://blog.csdn.net/u012150179/article/details/32343635)。在开始之前假设你已经成功安

2015-11-01 16:36:20 1319

原创 STL 中 lower_bound 与 upper_bound 与 二分查找

首先,先说明 lower_bound 与 upper_bound 的含义。对于区间 [first,last) 内的元素:1.lower_bound :寻找最远的 i,使得 [ first, i ) 中的每个迭代器 j 都满足 *j 2.upper_bound:寻找最远的 i,使得 [ first, i ) 中的每个迭代器 j 都不满足 *j > value示例:序列: 1,

2015-11-01 12:07:18 794

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除