java 爬虫概要

最新推荐文章于 2024-06-27 15:32:41 发布

下雨带伞

最新推荐文章于 2024-06-27 15:32:41 发布

阅读量185

点赞数

分类专栏： java爬虫文章标签： java

本文链接：https://blog.csdn.net/qq_39871579/article/details/105876280

版权

java爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

最近需要爬取一个网站的数据，但是因为很少接触这方面的技术，一般来说python 爬取数据比较合适，但是Python接触不多，那就用java爬取吧。作为一个初学者，希望能够记录下自己的学习过程，开始学习之前，需要对爬虫有大概的了解，以下是我总结的爬虫技术要点。
首先，爬虫原理其实很简单，整体思路就是进入某个页面，拿到整个页面的数据，然后使用正则表达式进行字符串的分割，拼接，进而筛选出需要的数据。那么，整体步骤的话可以按照如下进行：
1、拿到需要爬取网站的url，并分析其中的robots协议
（1）何为robots协议
通俗的说就是爬虫协议，它的作用就是告诉搜索引擎，哪些页面可以抓取，哪些页面不可以抓取，同样的道理，我们在爬取数据的时候，也同样要遵守该协议。因为网站有些数据是不想被别人抓取的，特别注意的是，务必要遵守该协议，因为如果写的爬虫程序强行突破网站的反爬虫技术，可能就违反法律了。
（2）如何查看网站的robots协议
一般情况下，在网站的主页url中加上"/robots.txt"就能够查看到该网站的robots协议了，还有就是可以通过第三方工具来查询网站的robots协议，比如站长工具，百度资源等。另外，有些网站没有robots协议，这种情况下，有人说可以任意爬取，但是我觉的还是谨慎为好，毕竟，无限制的爬取，会造成网站服务器的负载过大，并不人道。最后，自己的代码最好是要优化，比如爬取一定数据后，休眠一段时间再爬取。
2.分析网站所使用的技术
这点还是需要懂一些web开发的，因为页面之间的数据传递之类的代码还是要看得懂的，不然无从下手。网站有做得好的，有做得差的，一般做得差的比较好爬取。简单的分析技术，则是打开浏览器，这里推荐使用chrome,firefox，毕竟这是开发人员最爱的两款浏览器，进入需要爬取的网站，找到要爬取数据所在的页面，按f12进入调试状态，则可以看到该页面的源码。然后就可以开始分析了，对于具体的网站分析技术，后面我会写一个具体的教程。
3.爬取到数据以后，保存数据
这里有个建议，就是写代码的时候，顺便记录爬取的每个页面的url，以及类型等数据，保存起来在文件中，或者数据库中，便于日后查看。大多数人一般会把数据导出成excel表，保存到excel中我使用了Apache POI，POI提供API给Java程序对Microsoft Office格式文档读和写的功能，使用起来还是很方便的。
最后，对于上述的的内容，后续会给出具体的教程，大神请略过。。。。，是菜鸟的话，来和我一起互啄吧。