写代码让你怀疑人生,那爬虫定会改变你人生,爬取你需要的torrent,当然高级点的网站都反爬虫。
下面就爬取一下电影的网站
http://www.xunleigang.net/html/aiqing/
1、Elements links=doc.select(".bcr_box dl");
2、Elements links21 = link.getElementsByTag("dt");
Elements links31 = link.getElementsByTag("dd");
Elements links21_ = links21.get(0).getElementsByTag("i");
Elements links22_ = links21.get(0).getElementsByTag("a");
Elements links31_ = links31.get(0).getElementsByTag("img");
String links21__ = links21_.toString();
String links22__ = links22_.attr("href");
String links23__ = links22_.text().toString();
String links31__ = links31_.attr("src");
links21__ = links21__.substring(3, links21__.lastIndexOf("<"));
Calendar a = Calendar.getInstance();
links21__ = a.get(Calendar.YEAR) + "-" + links21__;
// System.out.println(links21__); //电影时间
// System.out.println(links22__); //电影详情
// System.out.println(links23__); //电影名称
// System.out.println(links31__); //电影图片
// Map<String,String> replaceImgMap=downLoadImags(imgUrlList); // 下载图片
// String newContent=replaceWebPageImages(content,replaceImgMap); // 替换图片
//String links44__ = downLoadImags(links31__); // 下载图片
3、下载图片
InputStream inputStream=entity.getContent();
String imageType=entity.getContentType().getValue();
String urlB=imageType.split("/")[1];
// System.out.println(imageType);
String currentDatePath=DateUtil.getCurrentDatePath(); // 当年年月日路径
String uuid=UUID.randomUUID().toString(); // uuid
String newPath="http://localhost:8080/CnBlog/static/blogImages/"+currentDatePath+"/"+uuid+"."+urlB;
result = newPath;
FileUtils.copyToFile(inputStream, new File(PropertiesUtil.getValue("imageFilePath")+currentDatePath+"/"+uuid+"."+urlB));
详细下载地址:
链接:http://pan.baidu.com/s/1boOHfFD 密码:mkln
全CSDN的丰(好)色(se)博客,这里有书本看不到的Java技术,电影院禁播的电影,欢迎关注QQ群494808400