百度百科多线程爬虫(Java)

BaiduBaikeSpider

项目地址:https://github.com/imu-hupeng/BaiduBaikeSpider

简介

采用了MyEclipes作为集成开发环境,应该是兼容eclipse
百度百科多线程爬虫Java源码,数据存储采用了Oracle11g

使用方法

下载此源码之后使用 (导入 或者 import)操作导入此项目

各个类介绍

HtmlDAO.java

主要是进行把爬虫爬回来的数据插入到数据库中的操作。

JdbcUtil.java

进行数据库的基础操作,获取一个连接操作,释放连接操作
如果要更改数据库需要修改的部分有:

private static String url ="jdbc:oracle:thin:@127.0.0.1:1521:xe";
private static String user = "BAIKE";
private static String password = "31415926";
Class.forName("oracle.jdbc.driver.OracleDriver");

另外别忘了导入数据库对应的Java驱动。

HttpRequest.java

执行HTTP请求的类,注意,并不支持HTTPS请求,如果要进行HTTPS请求,请使用 https://github.com/imu-hupeng/HttpsRequest/ 项目中的HttpsRequest.java

IdCreater.java

引入这个类的原因主要是百度百科使用的数字作为索引,好几个爬虫线程协同工作时要保证它们访问的索引即不重复也不丢失,因此需要一个线程同步的索引产生器。
可以在里面修改索引的起始值与结束值。

WebCrawler.java

实现爬虫功能。

Main.java

可以修改 THREAD_NUM 的值添加不同数目的爬虫数量。

附百科SQL文件322MB:https://github.com/imu-hupeng/BaiduBaikeSpider/releases/download/v1.0.0/BAIKE_HTML.sql
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值