//====================================================== // mm131图片批量下载爬虫1.00 // 2017年11月15日 //====================================================== // 内置http模块 var http=require("http"); // 内置文件处理模块,用于创建目录和图片文件 var fs=require('fs'); // 用于转码。非Utf8的网页如gb2132会有乱码问题,需要iconv将其转码 var iconv = require('iconv-lite'); // cheerio模块,提供了类似jQuery的功能,用于从HTML code中查找图片地址和下一页 var cheerio = require("cheerio"); // 请求参数JSON。http和https都有使用 var options; // request请求 var req; // 图片数组,找到的图片地址会放到这里 var pictures=[]; //-------------------------------------- // 爬取网页,找图片地址,再爬 // pageUrl sample:http://www.mm131.com/xinggan/2852.html // pageUrl sample:http://www.mm131.com/xinggan/2853.html // pageUrl sample:http://www.mm131.com/xinggan/2976.html //-------------------------------------- function crawl(pageUrl){ console.log("Current page="+pageUrl); // 得到hostname和path var currUrl=pageUrl.replace("http://",""); var pos=currUrl.indexOf("/"); var hostname=currUrl.slice(0,pos); var path=currUrl.slice(pos); //console.log("hostname="+hostname); //console.log("
Node.js mm131图片批量下载爬虫1.00 iconv协助转码
本文介绍了一个使用Node.js编写的mm131网站图片批量下载爬虫,通过iconv库解决了编码转换问题,实现了图片资源的高效抓取和存储。
摘要由CSDN通过智能技术生成