const https=require(‘https’);
const fs=require(‘fs’);
const request=require(‘request’);
const async=require(‘async’);
const startPage =0;//开始页
const endPage = 1;//结束页
let page=startPage;
let i=0;
//初始url
const url={
hostname: ‘www.toutiao.com’,
path: ‘/search_content/?offset=’+startPage*20+‘&format=json&keyword=%E8%A1%97%E6%8B%8D&autoload=true&count=20&cur_tab=3&from=gallery’,
headers: {
‘Content-Type’: ‘text/html’,
‘User-Agent’: ‘Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36’,
}
}
let urlList=[];//存储图片页面地址
//获取图片所在页面
function getUrl(url){
//采用http模块向服务器发起一次get请求
https.get(url,function(res){
var html=‘’;
res.setEncoding(‘binary’);
//监听data事件,每次取一块数据
res.on(‘data’,function(chunk){
html+=chunk;
});
res.on(‘end’,function(){
html=JSON.parse(html);//由于获取到的数据是JSON格式的,所以需要JSON.parse方法浅解析
for(let i of html.data){
var obj ={title:i.title,url:i.article_url};
urlList.push(obj);
}
console.log(urlList.length);
page++;
if(page<=endPage){
let tempUrl=‘https://www.toutiao.com/search_content/?offset=’+page*20+‘&format=json&keyword=%E8%A1%97%E6%8B%8D&autoload=true&count=20&cur_tab=3&from=gallery’;
getUrl(tempUrl);
}else{
fetchPage();
}
})
}).on(‘err’,function(err){
console.log(err);
})
}
function fetchPage(){
//异步控制并发
async.mapLimit(urlList,5,function(url,callback){
//截取字符串拼接为图片所在文章地址
url.url=‘https://www.’+url.url.substring(7,19)+‘a’+url.url.substring(25);
https.get(url.url,function(res){
let html=‘’;
res.setEncoding(‘binary’);
res.on(‘data’,function(chunk){
html+=chunk;
})
res.on(‘end’,function(){
var news_item = {
//获取文章的标题
title: url.title,
//i是用来判断获取了多少篇文章
i: i = i + 1,
};
console.log(news_item); //打印信息
//用来匹配script中的图片链接
const reg=/http:\/\/p\d.pstatp.com\/origin(\/pgc-image)?\/[A-Za-z0-9]+/g;
let imageList=html.match(reg);
savedImg(imageList,url.title);
})
}).on(‘err’,function(err){
console.log(err);
});
callback(null,‘成功’);
},
function(err,result){
if (err){
console.log(err)
}
else{
console.log(‘结束’);
}
})
}
function savedImg(imageList,title){
fs.mkdir(‘./image/’+title,function(err){
if(err){console.log(err)};
});
console.time(‘下载’+title+‘耗时’);
imageList.forEach(function(item,index){
let img_title=index;
let img_filename = img_title + ‘.jpg’;
let img_src=‘http://’+item.substring(9);
request({uri:img_src,encoding:‘binary’},function(err,res,body){
if(!err&&res.statusCode==200){
fs.writeFile(‘./image/’+title+‘/’ + img_filename,body,‘binary’,function(err){
if(err){
console.log(err);
}
})
}
})
最后
自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。
深知大多数初中级Android工程师,想要提升技能,往往是自己摸索成长,自己不成体系的自学效果低效漫长且无助。
因此收集整理了一份《2024年Web前端开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Android开发知识点!不论你是刚入门Android开发的新手,还是希望在技术上不断提升的资深开发者,这些资料都将为你打开新的学习之门!
如果你觉得这些内容对你有帮助,需要这份全套学习资料的朋友可以戳我获取!!
由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且会持续更新!
droid开发知识点!不论你是刚入门Android开发的新手,还是希望在技术上不断提升的资深开发者,这些资料都将为你打开新的学习之门!**
如果你觉得这些内容对你有帮助,需要这份全套学习资料的朋友可以戳我获取!!
由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且会持续更新!