Java爬虫初试（一）准备

v隐曜

已于 2022-03-04 10:04:39 修改

阅读量489

点赞数 2

分类专栏： java爬虫文章标签：爬虫 java

于 2022-03-01 16:48:32 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43798728/article/details/123208620

版权

java爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章目录

前言
一、使用的工具
二、使用步骤
- 1.maven引入包

前言

1. 为何要用爬虫
以前没得需求，最近做毕设，需要获取一些数据，说多不多，说少也不少，靠手工肯定累的够呛，正好自己也一直想试试爬虫，便花了些时间去尝试。

2. 为何选择Java
这个就没其他原因，纯粹是最近再学习java。我还想如果Java效果不好，我直接用Python去做，什么方便用什么。

3. 为何不用爬虫框架
刚开始我是想用的，就去github上找了一些Java相关的爬虫，我找到以下两个：
WebCollector
https://github.com/CrawlScript/WebCollector
WebMagic
https://github.com/code4craft/webmagic
在使用的时候出现了一些问题，寻求解决方法未果，再者我要获取数据的网站本身结构很简单规律，所以就打算自己编写一个只针对该网站的特型爬虫。

4. 如何开始
webmagic有着详细的用法介绍和文档，其中也介绍了该项目的开发历程和愿景，以及使用的技术。正是webmagic作者详细的文档介绍让我对爬虫开发的技术有了一个概略的认识。
其中遇到的一些问题，我也有查阅参考这两个项目的源码，确实给了我很大启发和帮助，非常感谢。
本人开发爬虫获取数据仅为学习之用，开发过程中使用的各种工具版权皆为其作者所有。
编程之路道阻且长，java之海深不可测，本人技术水平有限，时间仓促，如有纰漏，还望见谅。

一、使用的工具

HTTPClient
用于发送请求和处理响应
Jsoup
用于解析页面和提取数据
JsoupXpath
补充Jsoup的工具，提供了通过Xpath提取数据的方式
commons-csv
数据持久化所用的工具，将数据获取后输出为csv格式

二、使用步骤

1.maven引入包

网站https://mvnrepository.com/可以获取各种包以及相应的引用方式。
进入其中搜索可得对应包：

一般选择使用数最多的包：
点击相应版本，一般为最新：
在这里插入图片描述
复制依赖dependency到maven项目中即可：

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Java爬虫初试（一）准备

文章目录前言一、使用的工具二、使用步骤1.maven引入包前言1. 为何要用爬虫以前没得需求，最近做毕设，需要获取一些数据，说多不多，说少也不少，靠手工肯定累的够呛，正好自己也一直想试试爬虫，便花了些时间去尝试。2. 为何选择Java这个就没其他原因，纯粹是最近再学习java。我还想如果Java效果不好，我直接用python去做，什么方便用什么。3. 为何不用爬虫框架刚开始我是想用的，就去github上找了一些Java相关的爬虫，我找到以下两个：WebControllerhttps://
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。