跟朋友聊天总会用到大量表情包,有些人甚至专门收集各种各样的表情包,看看谁能打败谁。今天我就用java爬取了一个斗图网站上的所有表情包,用来充实自己的表情包库。代码逻辑有可能并不完美,哈哈,也花了我几个小时才完成呢。
下载完所有图片,总共有225M.
思路:主要通过解析页面的源代码来获取图片的URL地址,然后通过图片地址下载图片到本地,所以要学会使用浏览器进行分析。
所用jar包:jsoup-1.8.1.jar
网站首页:https://doutushe.com/portal/index/index/p/1
浏览器:Chrome
1,获取网页源代码
/**
* 获取网页源代码
* @author Augustu
* @param url 网页地址
* @param encoding 网页编码
* @return 网页源代码
*/
public static String getUrlResource(String url,String encoding) {
//网页源代码,用String这个容器记录
String htmlResource = "";
//记录读取网页的每一行数据
String temp = null;
try {
//1,找到网站地址
URL theUrl = new URL(url);
//2,建立起与网站的连接
URLConnection urlConnecti