const tagList = [‘原型’, ‘闭包’, ‘HTTP’, ‘CORP’, ‘TCP’, ‘https’,‘跨域’,‘XSS’,‘安全’,‘事件’,‘VUE’,‘CSS’,‘算法’,‘线程’,‘NODE’];
let textNo = JSON.stringify(result.filter(item => tagList.indexOf(item.word.toUpperCase()) >= 0));
生成数据如下
和我想象的还是有些差距的,可能程序并不是太完善,然后就可以把数据导入到任何一个在线词云里面了
完整代码
const https=require(‘https’);
const fs=require(‘fs’);
const request=require(‘request’);
const async=require(‘async’);
const cheerio = require(‘cheerio’);
const nodejieba = require(‘nodejieba’);
const startPage =0;//开始页
const endPage = 4;//结束页
const keyWord = “”;//关键词
const keyWord2 = “前端”;
let page=startPage;
let i=0;
//初始url
const url={
hostname: ‘www.nowcoder.com’,
path: ‘/discuss?type=2&order=’ + startPage,
headers: {
‘Content-Type’: ‘text/html’,
‘User-Agent’: ‘Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36’,
}
}
let urlList=[];//存储图片页面地址
//获取图片所在页面
function getUrl(url){
//采用http模块向服务器发起一次get请求
https.get(url,function(res){
var html=‘’;
//res.setEncoding(‘binary’);
//监听data事件,每次取一块数据
res.on(‘data’,function(chunk){
html+=chunk;
});
res.on(‘end’,function(){
var $ = cheerio.load(html); //采用cheerio模块解析html
$(‘li .discuss-main.clearfix’).each(function(){
var title=$(this).children().first().text();
if(title.indexOf(keyWord2)>=0){
var search=$(this).children().first().attr(‘href’);
//console.log(search);
let nextLink = “https://www.nowcoder.com” + search;
urlList.push(nextLink);
}
})
page++;
if(page<=endPage){
let tempUrl=‘https://www.nowcoder.com/discuss?type=2&order=’ + page;
getUrl(tempUrl);
}else{
fetchPage();
}
})
}).on(‘err’,function(err){
console.log(err);
})
}
function fetchPage(){
//异步控制并发
async.mapLimit(urlList,5,function(url,callback){
https.get(url,function(res){
//console.log(url);
let html=‘’;
//res.setEncoding(‘binary’);
res.on(‘data’,function(chunk){
html+=chunk;
})
res.on(‘end’,function(){
//console.log(html);
var $ = cheerio.load(html); //采用cheerio模块解析html
var content = $(‘.post-topic-des’).text().trim();
//console.log(content);
appendText(content);
})
}).on(‘err’,function(err){
console.log(err);
});
callback(null,‘成功’);
},
function(err,result){
if (err){
console.log(err)
}
else{
console.log(‘结束’);
wordCluod();
}
})
}
function appendText(text){
fs.appendFile(‘./data/word.txt’, text, ‘utf-8’, function (err) {
if (err) {
console.log(err);
}
});
}
// 生成词云数据
function wordCluod(){
fs.readFile(‘./data/word.txt’, ‘utf8’, function(err, data){
nodejieba.load({
小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。
深知大多数初中级前端工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年Web前端开发全套学习资料》送给大家,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频
如果你觉得这些内容对你有帮助,可以添加下面V无偿领取!(备注:前端)
HTTP
-
HTTP 报文结构是怎样的?
-
HTTP有哪些请求方法?
-
GET 和 POST 有什么区别?
-
如何理解 URI?
-
如何理解 HTTP 状态码?
-
简要概括一下 HTTP 的特点?HTTP 有哪些缺点?
-
对 Accept 系列字段了解多少?
-
对于定长和不定长的数据,HTTP 是怎么传输的?
-
HTTP 如何处理大文件的传输?
-
HTTP 中如何处理表单数据的提交?
-
HTTP1.1 如何解决 HTTP 的队头阻塞问题?
-
对 Cookie 了解多少?
-
如何理解 HTTP 代理?
-
如何理解 HTTP 缓存及缓存代理?
-
为什么产生代理缓存?
-
源服务器的缓存控制
-
客户端的缓存控制
-
什么是跨域?浏览器如何拦截响应?如何解决?
HTTP 代理?
-
如何理解 HTTP 缓存及缓存代理?
-
为什么产生代理缓存?
-
源服务器的缓存控制
-
客户端的缓存控制
-
什么是跨域?浏览器如何拦截响应?如何解决?