- 博客(17)
- 资源 (14)
- 收藏
- 关注
原创 正则表达式加注释用法
regex_1:\d{4}-\d{2}test文本:2011-08结果:全部可以命中!加注释后:regex_2:(?x)\d{4}#year:comment-\d{2}#month:comment都可以命中!分析:使用了修饰符:
2011-08-31 11:13:38 1723
原创 贪心与懒惰量词重复操作问题
默认情况下,所有量词都是贪心(greddy)的:就是说会尽可能多地匹配。而懒惰就刚刚相反。但是,可以通过在量词后面添加一个“?”,那么新组合成的量词将使懒惰的。比如说,量词“*”是贪心的,但是量词组合“*?”却是懒惰的。效用上他们的区别在于:惰性的量词"*",每次只会前进
2011-08-31 07:43:15 1412
原创 替换(substitution)之捕获分组
这是我写的第一篇关于正则表达式的文章。至于正则表达式,在本科时代学习《编译原理》的时候,略微看过了一下,并没有深究。最近学习nutch的框架,当看到conf/regex-normalize.xml,完全傻眼了。为了进一步学习,不得不重新开始regex(正则表达式)。 一切
2011-08-29 16:54:47 1805
原创 “&”的意义
这个问题之前搞网站开发的时候,已经 遇到过。不过,今天看到居然又忘记了!开来开始写博客是很重要的哦。符号:“&”英文名字:ampersands实际相当于符号:“&”例子:(标示处)“http://www.baidu.com/s?tn=sogouie
2011-08-25 15:53:15 1652
转载 eclipse常用快捷键
Eclipse的快捷键 收藏 1,eclipse的使用操作;创建工作空间;创建工程;创建包;创建main函数;在控制台输出一条语句;创建接口;自动生成存取器;(set(),get()方法)try catch 包围语句;Alt + / 提示;
2011-08-25 10:20:18 1521
原创 设置eclipse console 显示条数
preference->run/debug->console 设置limit console output 为false,方便调试时,查看全部console。
2011-08-24 16:11:05 5601 1
转载 maven基础知识
1 关键名词 Project:任何您想build的事物,Maven都可以认为它们是工程。这些工程被定义为工程对象模型(POM,Poject Object Model)。一个工程可以依赖其它的工程;一个工程也可以由多个子工程构成。POM:POM(pom.xml)是Maven
2011-08-23 08:02:10 951
翻译 nutch入门经典翻译1:Introduction to Nutch, Part 1: Crawling
csdn的图片功能太差了。直接给一个连接吧:http://hi.baidu.com/kaiwii/blog/item/7710933c82422b1abba167f5.html
2011-08-20 06:47:12 873
转载 crawl结果文件夹中的index,indexes文件夹的区别
1、nutch-1.x中在crawl.java中。最后有这么一句话。?indexer.index(indexes, crawlDb, linkDb, Arrays.asList(HadoopFSUtil.getPaths(fstats)));它会把crawld
2011-08-19 15:12:09 770
原创 dfs的理解
也许 懂得有些迟了……本来以为只要用stop-all.sh的命令关掉dfs服务等之后,会造成dfs里面数据的丢失。后来想想不会啊,对于本地模式而言,dfs对应的内容不是都保存在本地目录里面么!?所以,对于本地模式的配置,只要你没有format namenode的话,重
2011-08-18 08:06:13 1031
转载 nutch -1.2 command
nutch.job 文件的使用:hadoop jar nutch-1.2.job org.apache.nutch.crawl.Crawl urls -dir crawl -depth 1 抓取 bin/nutch crawl urls -dir -depth
2011-08-17 07:27:18 1226
原创 如何查看Nutch命令
比如要找readdb的使用方法可以用文本方式打开bin/nutch.sh然后,找到相应的这么一句:elif [ "$COMMAND" = "readdb" ] ; then CLASS=org.apache.nutch.crawl.CrawlDbReader
2011-08-16 14:46:51 826
原创 nutch-1.3 分布式terminal操作过程
kaiwii@master:~/nutch-1.2/bin$ ./hadoop namenode -format11/08/13 19:52:20 INFO namenode.NameNode: STARTUP_MSG: /************************
2011-08-14 11:13:01 1304
原创 dfs namenode format 导致 datenode不能连接上
PROBLEMhadoop@potr134pc26:/usr/local/hadoop/bin$ rm -r/usr/local/hadoop-datastore/----NOW THERE IS NO HADOOP-DATASTORE FOLDER LOCALL
2011-08-14 11:04:28 1687
转载 properties.xml 与build.properties的关系,就好似面向对象的“继承”关系
properties.xml 与build.properties的关系,就好似面向对象的“继承”关系。在build.properties可以创造新的属性,properties.xml 会自动吸收。如在build.properties增加database.schema属
2011-08-13 14:54:58 2116
原创 nutch配置问题
使用的是nutch 1.3的版本基本配置和安装,根据官网tutorial的内容即可了。http://wiki.apache.org/nutch/NutchTutorial要点说明:需要配置nutch-site.xml。具体属性项可以参考nutch-default.xm
2011-08-11 11:12:31 1799 1
维特比算法解决经典隐马尔科夫链问题的思路
2018-07-11
支持ADK开发的Arduino开发IDE(1)
2013-05-18
nutch入门经典翻译1:Introduction to Nutch, Part 1: Crawling
2011-08-20
SH(struts2+Hibernate 3)简单实现注册模块
2011-05-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人