找不到config.ini文件
webmagci-selenium
webmagic-selenium 是整合了selenium,但是自从2017年之后作者再也没有维护webmagci-selenium,所以遗留了一些问题。
1.为什么使用selenium
selenium是一个模拟浏览器,通过selenium的API可以与浏览器的内核进行交互,在爬虫中使用selenium技术可以解决JS的渲染问题,从而获得我们想爬取的数据。
2.下载webmagic-selenium
2.1Maven中获取依赖
远程仓库下载地址,选择最新的0.7.3版本。
通过Maven远程仓库下载的jar包,在读取config.ini文件在控制台会有异常提示:config.ini文件不存在。
主要原因:是作者在源码中把config.ini的路径写死了,所以读取不到。
2.2下载最新0.7.3版本源码
1.下载地址,解压压缩包。
2.使用开发工具IDEA,打开webmagic-selenium文件。
3.修改WebDriverPool类两处源码,