Java爬虫入门(一)——项目介绍

最新推荐文章于 2024-08-26 13:41:43 发布

codingCoge

最新推荐文章于 2024-08-26 13:41:43 发布

阅读量1.4w

点赞数 26

分类专栏： JAVA爬虫系列

本文链接：https://blog.csdn.net/qq_38409944/article/details/81459761

版权

这篇博客是Java爬虫的入门教程，作者计划分为四部分介绍，包括项目介绍、HttpClient请求、正则表达式和线程池、连接池。文章中提到，爬虫通常分为三个步骤，并以爬取小说网站的全部小说作为实践目标，探讨了选择静态网页的原因和动态网页的爬取挑战。

摘要由CSDN通过智能技术生成

前言：

https://github.com/jjc123/Java-Crawler/blob/master/README.md

突然心血来潮想学一下爬虫，本来是打算学python的（学习成本不高），不过既然是搞java的，那就用java好啦，毕竟知识可以复用，而且java的爬虫框架库也不少。
这里写图片描述
来看个图解，相信对爬虫一目了然：

1. 建立网络连接，爬取数据
2. 建立正则表达式规范
3. 使用正则表达式爬取获得的数据

如果数据量比较庞大，可以选择线程池，连接池并发。
先定个小目标吧：

爬取一个小说网站的小说下载到本地

小说网址：

https://www.bookbao8.com/BookList-c_0-t_2-o_1.html

项目要求：
JAVA爬虫 并发爬取静态小说网站的全部小说
数量级过万，理论上可行，不过测试的时候我就测试了100组而已。
涉及的知识：

1. HttpClient请求
2. 连接池并发
3. 线程池并发
4. 正则表达式
5. IO流保存本地文件

为什么选择爬取这一个静态网页呢？ 因为：
对于刚入门的菜狗如我，就别想着爬知乎，百度，CSDN了。
因为我发现我爬的百度首页都是看不懂的编码格式，如：

.bdsug .bdsug-direct p{
   color:#00c;

关注

专栏目录