自己用LUCENE建立索引

最新推荐文章于 2022-05-28 16:27:58 发布

iceshirley

最新推荐文章于 2022-05-28 16:27:58 发布

阅读量1k

点赞数

文章标签： lucene 数据库 url 算法 mysql class

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/iceshirley/article/details/1401591

版权

在spider搜索的网页基础上作的，依然连接mysql数据库

class LinkToDb {

protected Connection con;

protected PreparedStatement preCount;

protected PreparedStatement preSelect;

LinkToDb(String driver,String sqlurl){

try{

Class.forName(driver);

con=DriverManager.getConnection(sqlurl);

preCount=con.prepareStatement("SELECT count(*) as qty FROM visited_tab;");

preSelect=con.prepareStatement("SELECT * FROM visited_tab;");

}

catch(Exception e){

}

}

public int GetTableNum(){

int count=0;

try{

ResultSet rs=preCount.executeQuery();

rs.next();

count=rs.getInt("qty");

}

catch(Exception e){

}

return count;

}

public ResultSet GetResult(){

ResultSet rs=null;

try{

rs=preSelect.executeQuery();

//rs.next();

}

catch(Exception e){

}

return rs;

}

GetResult（）方法是获得数据库所有对象（不清楚一点，rs是引用还是类，要是类的话如果数据库太大。。。）

建议类对象creatIndex ci=new creatIndex();

还有 IndexWriter writer=new IndexWriter(dir,new CJKAnalyzer(),true);用了cjkanalyzer呵呵，之后就用lucene建立索引

ci.createConnection();

count = ci.getTableNum();

if (count < 1 ) {

System.out.println("no record in database");

}

else {

rs=ci.getResult();

while(rs.next()){

Document doc=new Document();

doc.add(Field.Keyword("url",rs.getString("url")));

doc.add(Field.Text("title",rs.getString("title")));

doc.add(Field.UnStored("text",rs.getString("text")));

doc.add(Field.UnIndexed("encode",rs.getString("encode")));

doc.add(Field.UnIndexed("last_modify_time",rs.getString("last_modify_time")));

writer.addDocument(doc);

System.out.println(rs.getString("url")+" has been indexed");

}

writer.optimize();

writer.close();

System.out.println("complete");

}

其实搜索代码也作好了，由于spider没有使用网页分析算法，导致搜索出很多没必要的内容，想看看pagerank算法，改进一下spider

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。