自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

neo_2011的专栏

积累一点算一点……

  • 博客(16)
  • 收藏
  • 关注

原创 fopen的模式选择r和rb

一段的读写二进制的程序遇到莫名奇妙的错误,循环写入的是268个字符,读出的有时是269,有时是270。 搜索问题才知道和fopen的mode参数选择有关:如果没有b,即单以”r”为参数的话,系统就把换行符0A转换为0D0A,因为windows是以0D0A为换行符的。 参考:http://www.cppblog.com/izualzhy/archive/2012/04/23/172489

2012-06-20 20:31:32 1167

原创 set_union的几个例子

问题:将多个集合合并成没有交集的集合。   给定一个字符串的集合,格式如:{aaabbbccc},{bbbddd},{eeefff},{ggg},{dddhhh}要求将其中交集不为空的集合合并,要求合并完成后的集合之间无交集,例如上例应输出{aaabbbcccdddhhh},{eeefff},{ggg}。   (1)请描述你解决这个问题的思路;   (2)请给出主要的处理流程,算法,以及算法

2012-03-18 13:55:29 10315 1

原创 Larbin学习小结

Larbin是一个用C++开发的开源网络爬虫,有一定的定制选项和较高的网页抓取速度。 下图表示了一般爬虫抓取网页的基本过程。 抓取以/Larbin.conf中的startUrl做为种子URLs开始。   下面先来看用于处理url的类: 上面的类图只显示了url类可见的接口。除了基本的构造函数和私有变量的get函数,url类比较重要的函数是hashCode( ),其实现

2011-11-30 14:24:01 8895 1

原创 Hadoop伪分布式配置试用+eclipse配置使用

参考文档:http://hadoop.apache.org/common/docs/current/single_node_setup.html 环境:WinXP+cygwin+hadoop-0.20.2 解压hadoop到E:\hadoop-0.20.2,配置文件 conf/hadoop-env.sh: # The java implementation to use. R

2011-11-29 14:06:33 3412 1

转载 Nutch 插件系统浅析

原文地址:http://www.ibm.com/developerworks/cn/java/j-lo-nutchplugin/?S_TACT=105AGX52&S_CMP=tec-csdn Nutch 基本情况 Nutch 是 Apache 基金会的一个开源项目,它原本是开源文件索引框架 Lucene 项目的一个子项目,后来渐渐发展成长为一个独立的开源项目。它基于 Java 开发

2011-11-14 16:40:42 1047

转载 Nutch中MapReduce的分析

How Map and Reduce operations are actually carried out http://wiki.apache.org/nutch/MapReduce http://wiki.apache.org/hadoop/MapReduce 转载地址:http://blog.csdn.net/jiutao_tang/article/details/653

2011-11-14 16:38:49 1585

原创 WinXP+cygwin+eclipse配置nutch-1.2,添加IKAnalyzer中文分词

主要参考博客: 配置: 1,win7下cygwin + Eclipse + Nutch1.2 + Tomcat6 安装配置 2,nutch1.1导入eclipse中运行 3,nutch研究—基本使用相关说明 添加中文分词包: 4,Nutch1.2 添加IKAnalyzer中文分词 5,nutch研究—遇到的错误和解决办法 6,Nutch1.2二次开发详细攻略(四)【图文】---

2011-11-07 17:01:01 4783 2

原创 使用VSM计算文档相似度的一个程序示例

以前课程作业写的一个小程序,复习一下知识点…… VSM(vector space model,向量空间模型)http://en.wikipedia.org/wiki/Vector_space_model 本例中使用的TF-IDF权重模型公式为sim(q,d)等于  TFdoc表示文档中词项出现的次数,TFq表示查询中词项出现的次数,df(w)表示出现词项的文档数,d

2011-11-06 16:46:07 5165 3

转载 一条Dos命令使用notepad2替换windows自带记事本

http://sourceforge.net/projects/notepad2/ 项目官网下载了notepad2v1108.7z,解压在D盘根目录,文件名该为“notepad.exe ”。 在cmd使用命令“replace D:\notepad.exe C:\windows /s”,过几秒钟会弹出个windows文件保护窗口出来,点取消,确认保留。 OK.   转载地址:http://

2011-10-29 11:19:38 952

原创 nutch-1.2和nutch-1.3的配置使用

一年多以前简单试用过nutch,但半途而废,打算再次学习一下。 前几天先去nutch官网下了最新的nutch-1.3版,依照wiki说明,在windows+cygwin+eclipse中完成配置。 http://wiki.apache.org/nutch/RunNutchInEclipse(对应nutch-1.3) http://wiki.apache.org/nutch/NutchTuto

2011-10-25 13:09:38 2782 2

转载 HttpClient使用基础

HttpClient基础(译自自带文档httpclient-tutorial.pdf第一章) http://www.cppblog.com/iuranus/archive/2010/07/04/119311.html HttpClient 4使用实例 http://hi

2011-10-17 16:35:18 564

原创 删除双系统的ubuntu,以及ubuntu上网很慢的解决办法

最开始分区没分好,/home分区太小了。 想重新分区,却感觉困难挺大的,搜了很久没找到解决方案。 试用了fdisk, testdisk, diskgen, 分区表医生,都不太好用、不会用…… 另外不得不提的是ubuntu居然连上网浏览网页都很慢,live cd也是一样,解析超慢,只能上百度和google,网上容易搜到的各种配置DNS的方法并不好用。 折腾了很久才找到解决方法,居然是需要关闭

2011-09-28 01:22:57 1859

转载 Ubuntu下调整eclipse界面紧凑

基于GTK+2.0的程序在启动时会到用户的home目录找GTK+2.0的配置文件,即~/.gtkrc-2.0。 我使用的方案是编辑加入如下代码: $ gedit ~/.gtkrc-2.0 style "gtkcompact" { font_name="Sans 8"

2011-09-26 15:36:03 1572

转载 Linux下C语言连接MySQL

#include #include #include int main() { MYSQL mysql; MYSQL_ROW row; MYSQL_RES *result; unsigned int num_fields;

2011-09-23 21:36:41 2412

转载 linux man命令使用方法

Linux提供了丰富的帮助手册,当你需要查看某个命令的参数时不必到处上网查找,只要man一下即可。 Linux的man手册共有以下几个章节: 1、Standard commands (标准命令) 2、System calls (系统调用) 3、Library functi

2011-09-23 17:41:11 492

原创 htmlparser的简单使用

抽取豆瓣电影信息的例子: 我个人主要使用的类有NodeFilter ,TagNameFilter,AndFilter,HasAttributeFilter,NodeList …… public void extract() { BufferedWriter bw = null; NodeFilter title_filter = new TagNameFilter("h1");

2011-08-21 17:40:38 534

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除