主题爬虫
luojinping
这个作者很懒,什么都没留下…
展开
-
网络爬虫讲解(附java实现的实例)
网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从 网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这转载 2011-10-13 17:43:24 · 73925 阅读 · 8 评论 -
httpClient应用
httpClient应用 一般的情况下我们都是使用IE或者Navigator浏览器来访问一个WEB服务器,用来浏览页面查看信息或者提交一些数据等等。所访问的这些页面有的仅仅是一些普通的页面,有的需要用户登录后方可使用,或者需要认证以及是一些通过加密方式传输,例如HTTPS。目前我们使用的浏览器处理这些情况都不会构成问题。不过你可能在某些时候需要通过程序来访问这样的一些页面,比如从别人的网转载 2011-11-04 09:36:32 · 848 阅读 · 0 评论 -
eclipse中配置heritrix的过程----heritrix-1.14.4
将heritrix-1.14.4-src和heritrix-1.14.4两个压缩文件解压<?xml:namespace prefix = o ns ="urn:schemas-microsoft-com:office:office" /> 配置过程: 1、新建Java Project工程 在Eclipse中新建一个Java Project工程(注意:一定是Java Project的工转载 2013-03-06 10:56:10 · 2005 阅读 · 0 评论 -
使用继续完善前人写的文章:使用ICTCLAS JAVA版(ictclas4j)进行中文分词
一、ICTCLAS的介绍中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐码模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果),基于角色标注的未登录词原创 2013-04-11 15:58:13 · 7244 阅读 · 6 评论 -
关于Heritrix的Extractor中文乱码
关键字:Heritrix 中文 乱码 GB2312 Extractor 继承从org.archive.crawler.extractor.Extractor的子类,在extract方法中可以从参数CrawlURI中取出要解析的内容。 curi.getHttpRecorder().getReplayCharSequence.toString()转载 2013-04-13 20:53:16 · 1598 阅读 · 0 评论 -
Sogou的语料库的问题
最近在训练HMM模型的时候,发现一句话的结果很奇怪,原文“据北京中原地产...”。可是我的模型输出结果是“聚北京中原....”。程序写错了? 不应该呀,模型调试过好多次应该没有这么严重的问题呀。 于是开始从数据下手,发现二元的“聚北”和三元的“聚北京”出现次数异常的高,远远超过“据北京”的频率,这样导致最终的模型计算概率的结果出现问题。再返回到最原始的抽取数据去看看到底什么内容是“转载 2013-04-16 09:43:27 · 1505 阅读 · 0 评论