nodejs 爬取前端面经并生成词云，移动web开发框架

最新推荐文章于 2024-05-21 23:21:19 发布

2301_76232361

最新推荐文章于 2024-05-21 23:21:19 发布

阅读量686

点赞数 11

分类专栏：程序员文章标签：前端

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_76232361/article/details/137368723

版权

程序员专栏收录该内容

269 篇文章 1 订阅

订阅专栏

// 这里是为了根据关键词查询，如果标题有我们设置的关键词，再把链接放到数组中

if(title.indexOf(keyWord)>=0){

var search=$(this).children().first().attr(‘href’);

let nextLink = “https://www.nowcoder.com” + search;

urlList.push(nextLink);

}

})

接下来就是页面里面的实际内容，也很容易分析

这里写图片描述

即类名为 post-topic-des 下的文本

至此页面分析工作做完，接下来就是使用 nodejieba 模块来分词

分词生成词云

关于 nodejieba 的用法可以参考这篇文章使用 Node.js 对文本内容分词和关键词抽取

由于 const result = nodejieba.extract(data, 40); 得到的结果是对象，所以写入文件之前需要将其转换为 JSON 字符串，用 JSON.stringify(result)。然后对字符串进行处理

代码如下

function wordCluod(){

fs.readFile(‘./data/word.txt’, ‘utf8’, function(err, data){

nodejieba.load({

userDict: ‘./user.utf8’,

});

const result = nodejieba.extract(data, 20);

let text = “”;

for(let i in result){

text += text[i].word + " " + Math.ceil(text[i].weight) + “\n”;

}

fs.writeFile(‘./data/’+‘wordCloud’+‘.txt’,text, ‘utf-8’, function (err) {

if (err) {

console.log(err);

}

});

});

}

但是这样有一个问题，因为他是根据词频选取的，所以有一些没用的词比如面试官，一面等词语就会混入到我们的词中，所以我们需要将有用的信息过滤出来

const tagList = [‘原型’, ‘闭包’, ‘HTTP’, ‘CORP’, ‘TCP’, ‘https’,‘跨域’,‘XSS’,‘安全’,‘事件’,‘VUE’,‘CSS’,‘算法’,‘线程’,‘NODE’];

let textNo = JSON.stringify(result.filter(item => tagList.indexOf(item.word.toUpperCase()) >= 0));

生成数据如下

这里写图片描述

和我想象的还是有些差距的，可能程序并不是太完善，然后就可以把数据导入到任何一个在线词云里面了

完整代码

const https=require(‘https’);

const fs=require(‘fs’);

const request=require(‘request’);

const async=require(‘async’);

const cheerio = require(‘cheerio’);

const nodejieba = require(‘nodejieba’);

const startPage =0;//开始页

const endPage = 4;//结束页

const keyWord = “”;//关键词

const keyWord2 = “前端”;

let page=startPage;

let i=0;

//初始url

const url={

hostname: ‘www.nowcoder.com’,

path: ‘/discuss?type=2&order=’ + startPage,

headers: {

‘Content-Type’: ‘text/html’,

‘User-Agent’: ‘Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36’,

}

}

let urlList=[];//存储图片页面地址

//获取图片所在页面

function getUrl(url){

//采用http模块向服务器发起一次get请求

https.get(url,function(res){

var html=‘’;

//res.setEncoding(‘binary’);

//监听data事件，每次取一块数据

res.on(‘data’,function(chunk){

html+=chunk;

});

res.on(‘end’,function(){

var $ = cheerio.load(html); //采用cheerio模块解析html

$(‘li .discuss-main.clearfix’).each(function(){

var title=$(this).children().first().text();

if(title.indexOf(keyWord2)>=0){

var search=$(this).children().first().attr(‘href’);

//console.log(search);

let nextLink = “https://www.nowcoder.com” + search;

urlList.push(nextLink);

}

})

page++;

if(page<=endPage){

let tempUrl=‘https://www.nowcoder.com/discuss?type=2&order=’ + page;

getUrl(tempUrl);

}else{

fetchPage();

}

})

}).on(‘err’,function(err){

console.log(err);

})

}

function fetchPage(){

//异步控制并发

async.mapLimit(urlList,5,function(url,callback){

https.get(url,function(res){

//console.log(url);

let html=‘’;

//res.setEncoding(‘binary’);

res.on(‘data’,function(chunk){

html+=chunk;

})

res.on(‘end’,function(){

//console.log(html);

var $ = cheerio.load(html); //采用cheerio模块解析html

var content = $(‘.post-topic-des’).text().trim();

//console.log(content);

appendText(content);

})

}).on(‘err’,function(err){

console.log(err);

});

callback(null,‘成功’);

},

function(err,result){

if (err){

console.log(err)

}

else{

console.log(‘结束’);

wordCluod();

}

})

}

function appendText(text){

fs.appendFile(‘./data/word.txt’, text, ‘utf-8’, function (err) {

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数前端工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Web前端开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上前端开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且会持续更新！

如果你觉得这些内容对你有帮助，可以扫码获取！！（备注：前端）

更多面试题

**《350页前端校招面试题精编解析大全》**内容大纲主要包括 HTML，CSS，前端基础，前端核心，前端进阶，移动端开发，计算机基础，算法与数据结构，项目，职业发展等等

资料获取方式：点击蓝色传送门免费获取

如果你觉得这些内容对你有帮助，可以扫码获取！！（备注：前端）**

更多面试题

**《350页前端校招面试题精编解析大全》**内容大纲主要包括 HTML，CSS，前端基础，前端核心，前端进阶，移动端开发，计算机基础，算法与数据结构，项目，职业发展等等

资料获取方式：点击蓝色传送门免费获取

[外链图片转存中…(img-1UyftYQu-1712196277294)]

关注

11
点赞
踩
17

收藏

觉得还不错? 一键收藏
1
评论
nodejs 爬取前端面经并生成词云，移动web开发框架

/ 这里是为了根据关键词查询，如果标题有我们设置的关键词，再把链接放到数组中})接下来就是页面里面的实际内容，也很容易分析即类名为下的文本至此页面分析工作做完，接下来就是使用 nodejieba 模块来分词。
复制链接

扫一扫

专栏目录

2301_76232361 CSDN认证博客专家 CSDN认证企业博客

码龄1年

269: 原创

1万+: 周排名

7559: 总排名

16万+: 访问

: 等级

6337: 积分

2808: 粉丝

3640: 获赞

23: 评论

3948: 收藏

私信

关注

热门文章

分类专栏

程序员 269篇

最新评论

Java网络商城项目 SpringBoot+SpringCloud+Vue 网络商城（SSM前后端分离项目）一（项目概述）(1)
普通网友: 文章构思巧妙，结构紧凑，既有深度又有广度，读后让人受益匪浅，确实是一篇值得一读的佳作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Java网络商城项目 SpringBoot+SpringCloud+Vue 网络商城（SSM前后端分离项目）一（项目概述）(1)
普通网友: 阅读这篇博文真是一次愉快的体验！作者的文字真是动人心弦，语言精准而生动。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
GitHub标星17K，超火的SpringBoot +Vue实战项目，文档视频贼全
天蓝999: 可以的，我看的另一个SpringBoot视频，从零开发，十天掌握了项目实战：https://knife.blog.csdn.net/article/details/134911141
jQuery效果，最全知识总结
CSDN-Ada助手: 恭喜您写出了这么一篇内容丰富的博客！不过在我看来，或许您可以考虑在下一篇博客中加入一些实际案例或者实战经验，让读者更好地理解和运用jQuery效果。希望您能继续保持创作热情，期待您更多优质内容的分享！
js复习，最全指南
CSDN-Ada助手: 恭喜您发布了第18篇博客“js复习，最全指南”！不仅内容丰富，而且对读者学习JavaScript有很大帮助。希望您能继续保持创作的热情和动力，为大家带来更多有价值的内容。下一步可以考虑深入探讨JavaScript的实战应用，或者分享一些实用的编程技巧和经验。期待您更多的精彩文章！

最新文章

2024

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。