node爬取app数据_手把手教你用nodejs爬取数据

最新推荐文章于 2022-12-08 11:11:57 发布

weixin_39522170

最新推荐文章于 2022-12-08 11:11:57 发布

阅读量623

点赞数 1

文章标签： node爬取app数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39522170/article/details/111519463

版权

1、本次爬虫目标

从网站中爬取数据，并分析整理，我的目标是完整复刻出一个webapp网站以作练手，所以会对输入如何存到MongoDB做思考。爬取的数据先暂时存到json文件中；当然在实际中可以直接存到自己的MongoDB中，这样复刻出来的网站就是一个完整的网站了，至于视频播放，可以把视频地址爬下来写到特定字段，用户调用是直接拿原来网站的视频就可以了(只爬取慕课免费课程的所有数据)。

运行完会的到另个json文件，结构如下

free.json(记录课程的方向和分类)

freeCourse.json(记录所有课程的文件，但数据会有id与free中的分类一一对应)

2、创建项目

1)创建craler目录，再新建index.js文件。在目录下执行npm init命令，然后一直回车。

2)安装npm包，执行npm install mongoose(生成MongoDB用的id)，npm install https，npm install cheerio；得到以下目录结构

3、获取课程的分类和方向的数据

const mongoose = require('mongoose');

const https = require('https');

const fs = require('fs');

const cheerio = require('cheerio');

var courses = [],

totalPage = 0,

orientations = [],//课程方向

orientationMap = {},

classifyMap = {},//课程分类

baseUrl = 'https://www.imooc.com',

freeCourseUrl = 'https://www.imooc.com/course/list';//免费课程

function fetchPage(url){

getFreeType(url);

}

//类型获取

function getFreeType(url) {

https.get(url, function(res){

var html = '';

res.setEncoding('utf-8')//防止中文乱码

res.on('data' ,function(chunk){

html += chunk;

})

//监听end事件，如果整个网页内容的html都获取完毕，就执行回调函数

res.on('end',function(){

var $ = chee

最低0.47元/天解锁文章

weixin_39522170

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
node爬取app数据_手把手教你用nodejs爬取数据

1、本次爬虫目标从网站中爬取数据，并分析整理，我的目标是完整复刻出一个webapp网站以作练手，所以会对输入如何存到MongoDB做思考。爬取的数据先暂时存到json文件中；当然在实际中可以直接存到自己的MongoDB中，这样复刻出来的网站就是一个完整的网站了，至于视频播放，可以把视频地址爬下来写到特定字段，用户调用是直接拿原来网站的视频就可以了(只爬取慕课免费课程的所有数据)。运行完会的到另个j...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。