基于Webmagic的Java爬虫(二)
一、目标:
获取(电影天堂)电影详情页链接,再获取电影名字和下载地址,并在控制台输出。
二、步骤:
- 爬取(电影天堂:https://mp.csdn.net) 首页电影详情的所有链接。
要爬取的内容:
- 按 F12 查看页面的源码,写出电影详情页正则://div[@class=‘co_content4’]/ul/a[@href]
- 点击电影详情链接,观察地址栏,写出电影详情页的正则,作为判断的依据。正则为:http://www.dytt8.net/html/gndy/\w{4}/\d{8}/\d{5}.html
- 查看电影详情页网页源码,写出电影名称和电影下载链接的正则:
电影名称正则://div[@class=‘title_all’]/h1/font/text()
电影下载链接正则://a[starts-with(@href,‘ftp’)]/text()
三、代码:
package ang.one;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.