Java爬虫初试(一)准备


前言

1. 为何要用爬虫
以前没得需求,最近做毕设,需要获取一些数据,说多不多,说少也不少,靠手工肯定累的够呛,正好自己也一直想试试爬虫,便花了些时间去尝试。

2. 为何选择Java
这个就没其他原因,纯粹是最近再学习java。我还想如果Java效果不好,我直接用Python去做,什么方便用什么。

3. 为何不用爬虫框架
刚开始我是想用的,就去github上找了一些Java相关的爬虫,我找到以下两个:
WebCollector
https://github.com/CrawlScript/WebCollector
WebMagic
https://github.com/code4craft/webmagic
在使用的时候出现了一些问题,寻求解决方法未果,再者我要获取数据的网站本身结构很简单规律,所以就打算自己编写一个只针对该网站的特型爬虫。

4. 如何开始
webmagic有着详细的用法介绍和文档,其中也介绍了该项目的开发历程和愿景,以及使用的技术。正是webmagic作者详细的文档介绍让我对爬虫开发的技术有了一个概略的认识。
其中遇到的一些问题,我也有查阅参考这两个项目的源码,确实给了我很大启发和帮助,非常感谢。
本人开发爬虫获取数据仅为学习之用,开发过程中使用的各种工具版权皆为其作者所有。
编程之路道阻且长,java之海深不可测,本人技术水平有限,时间仓促,如有纰漏,还望见谅。

一、使用的工具

  1. HTTPClient
    用于发送请求和处理响应
  2. Jsoup
    用于解析页面和提取数据
  3. JsoupXpath
    补充Jsoup的工具,提供了通过Xpath提取数据的方式
  4. commons-csv
    数据持久化所用的工具,将数据获取后输出为csv格式

二、使用步骤

1.maven引入包

网站https://mvnrepository.com/可以获取各种包以及相应的引用方式。
进入其中搜索可得对应包:
搜索
一般选择使用数最多的包:
点击相应版本,一般为最新:
在这里插入图片描述
复制依赖dependency到maven项目中即可:
在这里插入图片描述

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值