![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Heritrix
myb0220
这个作者很懒,什么都没留下…
展开
-
Heritrix使用UTF-8编码格式存储文件
最近在学习搜索引擎,想使用Heritrix + solr 搭建一个内网搜索引擎。Heritrix爬取网页保存到本地仓库,solr在本地仓库的基础上建立索引,然后进行搜索。整合是发现solr只能读取文件编码格式为UTF-8的文件,否则会出现乱码,而Heritrix保存文件是以ANSI格式保存的。所以需要修改Heritrix使用UTF-8格式保存。基础太差,看源码非常困难,整整弄了一天才弄明白。 修原创 2015-12-01 16:17:06 · 641 阅读 · 0 评论 -
Heritrix修改带参数时文件名
Heritrix保持文件时,以“/”为分隔符保存为文件。例如 http://www.ssss.com/node/show.asp?id=111,保存的文件路径如下:在根目录创建www.sss.com文件夹,然后在www.sss.com文件夹下创建node文件夹,之后再node下建立名称为showid=111.asp文件。这就是Heritrix保存文件的方式。 当路径中有参数时,文件名会将参数放到原创 2015-12-07 10:37:19 · 378 阅读 · 0 评论