- 博客(16)
- 收藏
- 关注
原创 fopen的模式选择r和rb
一段的读写二进制的程序遇到莫名奇妙的错误,循环写入的是268个字符,读出的有时是269,有时是270。 搜索问题才知道和fopen的mode参数选择有关:如果没有b,即单以”r”为参数的话,系统就把换行符0A转换为0D0A,因为windows是以0D0A为换行符的。 参考:http://www.cppblog.com/izualzhy/archive/2012/04/23/172489
2012-06-20 20:31:32 1167
原创 set_union的几个例子
问题:将多个集合合并成没有交集的集合。 给定一个字符串的集合,格式如:{aaabbbccc},{bbbddd},{eeefff},{ggg},{dddhhh}要求将其中交集不为空的集合合并,要求合并完成后的集合之间无交集,例如上例应输出{aaabbbcccdddhhh},{eeefff},{ggg}。 (1)请描述你解决这个问题的思路; (2)请给出主要的处理流程,算法,以及算法
2012-03-18 13:55:29 10315 1
原创 Larbin学习小结
Larbin是一个用C++开发的开源网络爬虫,有一定的定制选项和较高的网页抓取速度。 下图表示了一般爬虫抓取网页的基本过程。 抓取以/Larbin.conf中的startUrl做为种子URLs开始。 下面先来看用于处理url的类: 上面的类图只显示了url类可见的接口。除了基本的构造函数和私有变量的get函数,url类比较重要的函数是hashCode( ),其实现
2011-11-30 14:24:01 8895 1
原创 Hadoop伪分布式配置试用+eclipse配置使用
参考文档:http://hadoop.apache.org/common/docs/current/single_node_setup.html 环境:WinXP+cygwin+hadoop-0.20.2 解压hadoop到E:\hadoop-0.20.2,配置文件 conf/hadoop-env.sh: # The java implementation to use. R
2011-11-29 14:06:33 3412 1
转载 Nutch 插件系统浅析
原文地址:http://www.ibm.com/developerworks/cn/java/j-lo-nutchplugin/?S_TACT=105AGX52&S_CMP=tec-csdn Nutch 基本情况 Nutch 是 Apache 基金会的一个开源项目,它原本是开源文件索引框架 Lucene 项目的一个子项目,后来渐渐发展成长为一个独立的开源项目。它基于 Java 开发
2011-11-14 16:40:42 1047
转载 Nutch中MapReduce的分析
How Map and Reduce operations are actually carried out http://wiki.apache.org/nutch/MapReduce http://wiki.apache.org/hadoop/MapReduce 转载地址:http://blog.csdn.net/jiutao_tang/article/details/653
2011-11-14 16:38:49 1585
原创 WinXP+cygwin+eclipse配置nutch-1.2,添加IKAnalyzer中文分词
主要参考博客: 配置: 1,win7下cygwin + Eclipse + Nutch1.2 + Tomcat6 安装配置 2,nutch1.1导入eclipse中运行 3,nutch研究—基本使用相关说明 添加中文分词包: 4,Nutch1.2 添加IKAnalyzer中文分词 5,nutch研究—遇到的错误和解决办法 6,Nutch1.2二次开发详细攻略(四)【图文】---
2011-11-07 17:01:01 4783 2
原创 使用VSM计算文档相似度的一个程序示例
以前课程作业写的一个小程序,复习一下知识点…… VSM(vector space model,向量空间模型)http://en.wikipedia.org/wiki/Vector_space_model 本例中使用的TF-IDF权重模型公式为sim(q,d)等于 TFdoc表示文档中词项出现的次数,TFq表示查询中词项出现的次数,df(w)表示出现词项的文档数,d
2011-11-06 16:46:07 5165 3
转载 一条Dos命令使用notepad2替换windows自带记事本
http://sourceforge.net/projects/notepad2/ 项目官网下载了notepad2v1108.7z,解压在D盘根目录,文件名该为“notepad.exe ”。 在cmd使用命令“replace D:\notepad.exe C:\windows /s”,过几秒钟会弹出个windows文件保护窗口出来,点取消,确认保留。 OK. 转载地址:http://
2011-10-29 11:19:38 952
原创 nutch-1.2和nutch-1.3的配置使用
一年多以前简单试用过nutch,但半途而废,打算再次学习一下。 前几天先去nutch官网下了最新的nutch-1.3版,依照wiki说明,在windows+cygwin+eclipse中完成配置。 http://wiki.apache.org/nutch/RunNutchInEclipse(对应nutch-1.3) http://wiki.apache.org/nutch/NutchTuto
2011-10-25 13:09:38 2782 2
转载 HttpClient使用基础
HttpClient基础(译自自带文档httpclient-tutorial.pdf第一章) http://www.cppblog.com/iuranus/archive/2010/07/04/119311.html HttpClient 4使用实例 http://hi
2011-10-17 16:35:18 564
原创 删除双系统的ubuntu,以及ubuntu上网很慢的解决办法
最开始分区没分好,/home分区太小了。 想重新分区,却感觉困难挺大的,搜了很久没找到解决方案。 试用了fdisk, testdisk, diskgen, 分区表医生,都不太好用、不会用…… 另外不得不提的是ubuntu居然连上网浏览网页都很慢,live cd也是一样,解析超慢,只能上百度和google,网上容易搜到的各种配置DNS的方法并不好用。 折腾了很久才找到解决方法,居然是需要关闭
2011-09-28 01:22:57 1859
转载 Ubuntu下调整eclipse界面紧凑
基于GTK+2.0的程序在启动时会到用户的home目录找GTK+2.0的配置文件,即~/.gtkrc-2.0。 我使用的方案是编辑加入如下代码: $ gedit ~/.gtkrc-2.0 style "gtkcompact" { font_name="Sans 8"
2011-09-26 15:36:03 1572
转载 Linux下C语言连接MySQL
#include #include #include int main() { MYSQL mysql; MYSQL_ROW row; MYSQL_RES *result; unsigned int num_fields;
2011-09-23 21:36:41 2412
转载 linux man命令使用方法
Linux提供了丰富的帮助手册,当你需要查看某个命令的参数时不必到处上网查找,只要man一下即可。 Linux的man手册共有以下几个章节: 1、Standard commands (标准命令) 2、System calls (系统调用) 3、Library functi
2011-09-23 17:41:11 492
原创 htmlparser的简单使用
抽取豆瓣电影信息的例子: 我个人主要使用的类有NodeFilter ,TagNameFilter,AndFilter,HasAttributeFilter,NodeList …… public void extract() { BufferedWriter bw = null; NodeFilter title_filter = new TagNameFilter("h1");
2011-08-21 17:40:38 534
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人