java 爬虫概要

最近需要爬取一个网站的数据,但是因为很少接触这方面的技术,一般来说python 爬取数据比较合适,但是Python接触不多,那就用java爬取吧。作为一个初学者,希望能够记录下自己的学习过程,开始学习之前,需要对爬虫有大概的了解,以下是我总结的爬虫技术要点。
       首先,爬虫原理其实很简单,整体思路就是进入某个页面,拿到整个页面的数据,然后使用正则表达式进行字符串的分割,拼接,进而筛选出需要的数据。那么,整体步骤的话可以按照如下进行:
1、拿到需要爬取网站的url,并分析其中的robots协议
(1)何为robots协议
       通俗的说就是爬虫协议,它的作用就是告诉搜索引擎,哪些页面可以抓取,哪些页面不可以抓取,同样的道理,我们在爬取数据的时候,也同样要遵守该协议。因为网站有些数据是不想被别人抓取的,特别注意的是,务必要遵守该协议,因为如果写的爬虫程序强行突破网站的反爬虫技术,可能就违反法律了。
(2)如何查看网站的robots协议
       一般情况下,在网站的主页url中加上"/robots.txt"就能够查看到该网站的robots协议了,还有就是可以通过第三方工具来查询网站的robots协议,比如站长工具,百度资源等。另外,有些网站没有robots协议,这种情况下,有人说可以任意爬取,但是我觉的还是谨慎为好,毕竟,无限制的爬取,会造成网站服务器的负载过大,并不人道。最后,自己的代码最好是要优化,比如爬取一定数据后,休眠一段时间再爬取。
2.分析网站所使用的技术
       这点还是需要懂一些web开发的,因为页面之间的数据传递之类的代码还是要看得懂的,不然无从下手。网站有做得好的,有做得差的,一般做得差的比较好爬取。简单的分析技术,则是打开浏览器,这里推荐使用chrome,firefox,毕竟这是开发人员最爱的两款浏览器,进入需要爬取的网站,找到要爬取数据所在的页面,按f12进入调试状态,则可以看到该页面的源码。然后就可以开始分析了,对于具体的网站分析技术,后面我会写一个具体的教程。
3.爬取到数据以后,保存数据
      这里有个建议,就是写代码的时候,顺便记录爬取的每个页面的url,以及类型等数据,保存起来在文件中,或者数据库中,便于日后查看。大多数人一般会把数据导出成excel表,保存到excel中我使用了Apache POI,POI提供API给Java程序对Microsoft Office格式文档读和写的功能,使用起来还是很方便的。
     最后,对于上述的的内容,后续会给出具体的教程,大神请略过。。。。,是菜鸟的话,来和我一起互啄吧。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值