JAVA爬虫(一):豆瓣电影排行榜爬取
前言
最近和大创队友一起给大创做的APP增添了新功能,新功能中需要用到爬取豆瓣、QQ音乐、哔哩哔哩等网站。所以写下博客记录这一过程,也算是和大家分享一些经验。
流程图
步骤
一、爬取豆瓣电影榜单网页源代码
为实现这一功能,第一步是需要获取豆瓣热门电影榜单的网页源代码,我们采用Jsoup库中的connect方法建立连接,再用userAgent方法模拟浏览器进行网页访问,再用post方法获取数据。得到的是HTML格式的网页源代码,如下图:
二、网页源码解析
HTML格式解析:
我们发现电影信息存储在上图所示的地方,那我们只需要对这一层进行解析获取数据即可。用Jsoup中的select方法定位至这一区域,再用attr方法逐层选择需要的信息,比如我们获取了”href”下的电影链接、”title”下的电影名字,”src”下的电影图片等等。
总体代码如下
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class getDB_film {
public static void main(String[] args) throws IOException {
String url = "http://movie.douban.com/chart";
//获取html
Document doc = Jsoup.connect(url)
.maxBodySize(Integer.MAX_VALUE)
.data("query", "Java")
.cookie("auth", "token")
.userAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134")
.timeout