做一个网络爬虫程序 然后爬行的这些网页当做自己的database 然后把html 转换成txt 文档。然后待检测文档与这些文档进行对比。检测句子与句子之间的相似度。 使用lucene,分词统计都应该可以。