let reg=/http:\/\/p\d.pstatp.com\/origin(\/pgc-image)?\/[A-Za-z0-9]+/g;
这个正则表达式不难,但是应该是我写过的最长的了,其中 \/pgc-image 这一段有的图片路径没有,所以用 ? 来匹配 0 次或 1 次。注意不要匹配最后的 \,不然无法正确获取路径。 接下来就是把获取的文件保存下来。匹配下来的 URL 是 http://\ 这种模式,需要自己重新设置。
var img_src = ‘http://’+item.substring(9);
接下来,就是把图片下载到本地。
下面是完整源码
/*
-
@Author: user
-
@Date: 2018-04-30 12:25:50
-
@Last Modified by: user
-
@Last Modified time: 2018-04-30 22:02:59
*/
var https =require(‘https’);
var http = require(‘http’);
var fs = require(‘fs’);
var request = require(‘request’);
let startPage=0;//从哪一页开始爬
let page=startPage;
let endPage=1;//爬到哪一页
//初始请求地址
var url=‘https://www.toutiao.com/search_content/?offset=’+startPage*20+‘&format=json&keyword=%E8%A1%97%E6%8B%8D&autoload=true&count=20&cur_tab=3&from=gallery’
var i = 0;
//用来判断存储还是访问
var temp=0;
//存储首页url
urlList=[];
//封装了一层函数
function fetchPage(x) {
setTimeout(function(){
startRequest(x); },2000)
}
//首先存储要访问界面的url
function getUrl(x){
temp++;
https.get(x,function(res){
var html = ‘’;
res.setEncoding(‘binary’);
res.on(‘data’, function (chunk) {
html += chunk;
});
res.on(‘end’, function () {
html = JSON.parse(html);//由于获取到的数据是JSON格式的,所以需要JSON.parse方法浅解析
for(let i of html.data){
var obj1={title:i.title,url:i.article_url};
urlList.push(obj1)
}
page++;
if(page<=endPage){
let tempUrl=‘https://www.toutiao.com/search_content/?offset=’+page*20+‘&format=json&keyword=%E8%A1%97%E6%8B%8D&autoload=true&count=20&cur_tab=3&from=gallery’;
getUrl(tempUrl);
}
else{
fetchPage(urlList.shift());
}
})
}).on(‘error’, function (err) {
console.log(err);
});
}
function startRequest(x) {
if(temp===0){
getUrl(x);
}
else{
//采用http模块向服务器发起一次get请求,截取的字符串为文章链接地址
x.url=‘https://www.’+x.url.substring(7,19)+‘a’+x.url.substring(25);
setTimeout(function(){
https.get(x.url, function (res) {
var html = ‘’; //用来存储请求网页的整个html内容
res.setEncoding(‘binary’);
//监听data事件,每次取一块数据
res.on(‘data’, function (chunk) {
html += chunk;
});
//监听end事件,如果整个网页内容的html都获取完毕,就执行回调函数
res.on(‘end’, function () {
var news_item = {
//获取文章的标题
title: x.title,
//i是用来判断获取了多少篇文章
i: i = i + 1,
};
console.log(news_item); //打印信息
//用来匹配script中的图片链接
let reg=/http:\/\/p\d.pstatp.com\/origin(\/pgc-image)?\/[A-Za-z0-9]+/g;
let imageList=[];
imageList=html.match(reg);
savedImg(imageList,x.title);
//如果没访问完继续访问
if (urlList.length!=0 ) {
fetchPage(urlList.shift());
}
小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。
深知大多数初中级前端工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年Web前端开发全套学习资料》送给大家,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频
如果你觉得这些内容对你有帮助,可以添加下面V无偿领取!(备注:前端)
最后
全网独播-价值千万金融项目前端架构实战
从两道网易面试题-分析JavaScript底层机制
RESTful架构在Nodejs下的最佳实践
开源分享:【大厂前端面试题解析+核心总结学习笔记+真实项目实战+最新讲解视频】
一线互联网企业如何初始化项目-做一个自己的vue-cli
思维无价,看我用Nodejs实现MVC
代码优雅的秘诀-用观察者模式深度解耦模块
前端高级实战,如何封装属于自己的JS库
VUE组件库级组件封装-高复用弹窗组件
W1nLmNvbS84MC92Mi1lOTdlMTZkMWYyNDZhNjUxZjA4ZThlZjdjZjRhZWRjZl9oZC5qcGc?x-oss-process=image/format,png)
VUE组件库级组件封装-高复用弹窗组件