手把手教你实现window图片爬虫(二)

第二篇:技术要点

   1.网页抓取工具

    在开发过程中用了好几个版本,经过不断调试,最终为了网页解析更准确,选择了phantomjs。

      初级版:httpclient,优点速度快,缺点无法解析动态页面。
      中级版: WebDriver  可以解析动态网页,可以使用IE内核,当然还有FirefoxDriver, ChromeDriver,HtmlUnitDriver,这些driver的使用原理都是一样的,先开启有界面的浏览器(这个要时间的),然后加载url并完成动态解析。速度较慢,而且弹出多个浏览器页面体验不好。

      高级版 :phantomjs,一个基于webkit内核的无头浏览器,速度比普通浏览器更快,抓取动态网页无死角。提供javascript API接口,即通过编写js代码可以直接与webkit内核交互,功能强大。并且提供windows、linux、mac等不同os的安装使用包。

     phantomjs可直接通过命令行运行如下(当然代码中也是这种方式):

     该操作会在控制台输出解析后的所有网页内容

     

   当然得说下phantomjs怎么使用,我们需要phantomjs.exe这个文件,仅此而已,不需要安装。还有我们用来设置解析规则的js文件page.js内容如下

       

 在代码中我们是这样使用的

   

2.解析网页内容(jsoup):
      1.java字符串手动解析,较为复杂,需要用到正则,性能不好。

      2.jsoup 可直接解析某个URL地址、HTML文本内容,省心省力。

        


3.下载工具

   httpclient这个没什么好说的,代码如下

   

4.数据存储:

       目前考虑到应用场景(window项目,可以带着到处跑),用的内存存储HashSet,链接去重,软件关闭时会保存到文件,下次启动再加载到内存。

        存储管理如下

    

      后期改造成web项目,或者支持定向爬取需要认证信息的网页时,改用数据库,可以存储链接地址以及cookie验证信息。


5.爬虫界面(SWT):

    它与AWT/SWING组件类似,但是在美观成度和响应速度上都远远超越了AWT和SWING.这主要是因为AWT只是单纯模拟本地操作系统窗口组件,而SWT最大化了操作系统的图形构件API,也就是说只要操作系统提供了图形构件,SWT就可以利用JNI调用他们,只有操作系统中不提供的组件SWT才会去模拟实现. 由于使用了JNI,使得它和本地操作系统紧密连接在一起,因此编写的界面和本地系统窗口几乎没有区别。

注意点:swt内部的控件是需要一直刷新的,否则就直接关闭了。swt视图开启后,是不允许其他线程操作的,只能是当前打开视图的线程。


6.基础工具:
    JSON工具:jackson速度最快。其次fastJson,最慢Gson(兼容性最好),由于不涉及到复杂数据类型,而且序列化数据量较大,所以选择了jackson。
   日志工具:基于log4j的slf4j,优点就不用多说了。

   邮件发送:javax.mail jar包

7.类似于spring的依赖注入功能

并且丰富功能如定时任务、重试等   

这个应该是属于底层技术了,如果能弄懂,技术提升还是较大的。(不用担心,在第一篇中有所有相关的资源和源码)

    


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值