![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Java网络爬虫
Java朱老师
以其昭昭,使人昭昭
展开
-
Java网络爬虫(三)爬取网络小说
1.爬取小说章节内容,需要注意的大部分原创小说内容页是禁用右键的,无法直接选取页面内容进行元素检查,需要按F12,从上往下逐步选取元素。2.利用IO流,将爬取的内容保存到本地文本文件。本练习循序渐进,Demo1、首先爬取某一章节小说内容,Demo2、爬取完整一本小说内容,Demo3、爬取首页推荐榜中所有作品内容。在项目中添加HttpClient、Jsoup依赖,参加本系列上两章。Demo1:爬取某一章节小说内容public static void main(String[] args) throw原创 2021-09-30 10:54:25 · 3976 阅读 · 2 评论 -
Java网络爬虫(二)Jsoup使用
Jsoup的作用是可以解析HTML代码,它提供通过CSS选择器的方式获取文档元素。熟练使用组合选择器,有CSS或jQuery经验的人可以快速上手。爬取以下新闻界面:通过浏览器“检查”功能,选中标题元素,查找到元素类的值或id的值,灵活使用组合选择器,准确定位到具体的元素。在Maven pom.xml中加入Jsoup依赖: <dependency> <groupId>org.jsoup</groupId> <artifa原创 2021-09-30 10:22:51 · 712 阅读 · 0 评论 -
Java网络爬虫(一)HttpClient使用
本系列使用HttpClient+Jsoup实现网络爬虫。在Maven pom.xml中天假httpclient依赖 <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>httpclient</artifactId> <version>4.5.2</version> </dependency原创 2021-09-30 10:13:57 · 502 阅读 · 0 评论