【实例简介】
这是一个Java的爬虫项目,自己是用来爬去网站上的小说内容的。
【实例截图】
【核心代码】
crawl
└── crawl
├── crawl.iml
├── pom.xml
├── src
│ └── main
│ └── java
│ └── com
│ └── etoak
│ └── crawl
│ ├── link
│ │ ├── LinkFilter.java
│ │ └── Links.java
│ ├── main
│ │ └── MyCrawler.java
│ ├── page
│ │ ├── Page.java
│ │ ├── PageParserTool.java
│ │ └── RequestAndResponseTool.java
│ └── util
│ ├── CharsetDetector.java
│ ├── FileTool.java
│ └── RegexRule.java
└── target
└── classes
├── com
│ └── etoak
│ └── crawl
│ ├── link
│ │ ├── LinkFilter.class
│ │ └── Links.class
│ ├── main
│ │ ├── MyCrawler$1.class
│ │ └── MyCrawler.class
│ ├── page
│ │ ├── Page.class
│ │ ├── PageParserTool.class
│ │ └── RequestAndResponseTool.class
│ └── util
│ ├── CharsetDetector.class
│ ├── FileTool.class
│ └── RegexRule.class
└── temp
├── _bookcover.yuewen.com_qdbimg_349573_c_6972481904230701_180.jpeg
├── _ccstatic-1252317822.file.myqcloud.com_portraitimg_2018-07-18_5b4ed50aedc58.jpeg.jpeg
├── _qidian.gtimg.com_xs8_images_ico_account.15d9d.png.png
├── www.baidu.com.html
├── www.baidu.com_img_bd_logo1.png.png
├── www.baidu.com_img_gs.gif.gif
└── _www.xs8.cn_chapter_6972481904230701_18716614465026564.html
21 directories, 28 files