nodejs 爬取前端面经并生成词云(1),web前端开发在哪里学

先自我介绍一下,小编浙江大学毕业,去过华为、字节跳动等大厂,目前阿里P7

深知大多数程序员,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年最新Web前端全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
img
img
img
img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上前端开发知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

如果你需要这些资料,可以添加V获取:vip1024c (备注前端)
img

正文

接下来就是页面里面的实际内容,也很容易分析

这里写图片描述

即类名为 post-topic-des 下的文本

至此页面分析工作做完,接下来就是使用 nodejieba 模块来分词

分词生成词云

关于 nodejieba 的用法可以参考这篇文章 使用 Node.js 对文本内容分词和关键词抽取

由于 const result = nodejieba.extract(data, 40); 得到的结果是对象,所以写入文件之前需要将其转换为 JSON 字符串,用 JSON.stringify(result)。然后对字符串进行处理

代码如下

function wordCluod(){

fs.readFile(‘./data/word.txt’, ‘utf8’, function(err, data){

nodejieba.load({

userDict: ‘./user.utf8’,

});

const result = nodejieba.extract(data, 20);

let text = “”;

for(let i in result){

text += text[i].word + " " + Math.ceil(text[i].weight) + “\n”;

}

fs.writeFile(‘./data/’+‘wordCloud’+‘.txt’,text, ‘utf-8’, function (err) {

if (err) {

console.log(err);

}

});

});

}

但是这样有一个问题,因为他是根据词频选取的,所以有一些没用的词比如面试官,一面等词语就会混入到我们的词中,所以我们需要将有用的信息过滤出来

const tagList = [‘原型’, ‘闭包’, ‘HTTP’, ‘CORP’, ‘TCP’, ‘https’,‘跨域’,‘XSS’,‘安全’,‘事件’,‘VUE’,‘CSS’,‘算法’,‘线程’,‘NODE’];

let textNo = JSON.stringify(result.filter(item => tagList.indexOf(item.word.toUpperCase()) >= 0));

生成数据如下

这里写图片描述

和我想象的还是有些差距的,可能程序并不是太完善,然后就可以把数据导入到任何一个在线词云里面了

完整代码

const https=require(‘https’);

const fs=require(‘fs’);

const request=require(‘request’);

const async=require(‘async’);

const cheerio = require(‘cheerio’);

const nodejieba = require(‘nodejieba’);

const startPage =0;//开始页

const endPage = 4;//结束页

const keyWord = “”;//关键词

const keyWord2 = “前端”;

let page=startPage;

let i=0;

//初始url

const url={

hostname: ‘www.nowcoder.com’,

path: ‘/discuss?type=2&order=’ + startPage,

headers: {

‘Content-Type’: ‘text/html’,

‘User-Agent’: ‘Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36’,

}

}

let urlList=[];//存储图片页面地址

//获取图片所在页面

function getUrl(url){

//采用http模块向服务器发起一次get请求

https.get(url,function(res){

var html=‘’;

//res.setEncoding(‘binary’);

//监听data事件,每次取一块数据

res.on(‘data’,function(chunk){

html+=chunk;

});

res.on(‘end’,function(){

var $ = cheerio.load(html); //采用cheerio模块解析html

$(‘li .discuss-main.clearfix’).each(function(){

var title=$(this).children().first().text();

if(title.indexOf(keyWord2)>=0){

var search=$(this).children().first().attr(‘href’);

//console.log(search);

let nextLink = “https://www.nowcoder.com” + search;

urlList.push(nextLink);

}

})

page++;

if(page<=endPage){

let tempUrl=‘https://www.nowcoder.com/discuss?type=2&order=’ + page;

getUrl(tempUrl);

}else{

fetchPage();

}

})

}).on(‘err’,function(err){

console.log(err);

})

}

function fetchPage(){

//异步控制并发

async.mapLimit(urlList,5,function(url,callback){

https.get(url,function(res){

//console.log(url);

let html=‘’;

//res.setEncoding(‘binary’);

res.on(‘data’,function(chunk){

html+=chunk;

})

res.on(‘end’,function(){

//console.log(html);

var $ = cheerio.load(html); //采用cheerio模块解析html

var content = $(‘.post-topic-des’).text().trim();

//console.log(content);

appendText(content);

})

}).on(‘err’,function(err){

console.log(err);

});

callback(null,‘成功’);

},

function(err,result){

if (err){

console.log(err)

}

else{

console.log(‘结束’);

wordCluod();

}

})

文末

从转行到现在,差不多两年的时间,虽不能和大佬相比,但也是学了很多东西。我个人在学习的过程中,习惯简单做做笔记,方便自己复习的时候能够快速理解,现在将自己的笔记分享出来,和大家共同学习。

个人将这段时间所学的知识,分为三个阶段:

第一阶段:HTML&CSS&JavaScript基础

第二阶段:移动端开发技术

第三阶段:前端常用框架

  • 推荐学习方式:针对某个知识点,可以先简单过一下我的笔记,如果理解,那是最好,可以帮助快速解决问题;

  • 大厂的面试难在,针对一个基础知识点,比如JS的事件循环机制,不会上来就问概念,而是换个角度,从题目入手,看你是否真正掌握。所以对于概念的理解真的很重要。

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化的资料的朋友,可以添加V获取:vip1024c (备注前端)
img

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
对一个基础知识点,比如JS的事件循环机制,不会上来就问概念,而是换个角度,从题目入手,看你是否真正掌握。所以对于概念的理解真的很重要。

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化的资料的朋友,可以添加V获取:vip1024c (备注前端)
[外链图片转存中…(img-YuJMEPG2-1713327988927)]

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

  • 29
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值