nodejs抓取网页的源码，并保存到本地文件

最新推荐文章于 2024-09-10 08:51:02 发布

wukongk

最新推荐文章于 2024-09-10 08:51:02 发布

阅读量7.1k

点赞数 1

分类专栏： nodejs

本文链接：https://blog.csdn.net/u013742084/article/details/51531480

版权

nodejs 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

var http = require('http')
var fs = require('fs');

// 要抓取的网页地址
var url = 'http://www.imooc.com/learn/348'

http.get(url, function(res) {
	var html = ''
	res.on('data', function(data) {
		html += data;
	})
	res.on('end', function() {
		// 将抓取的内容保存到本地文件中
		fs.writeFile('index.html', html, function(err) {
			if (err) {
				console.log('出现错误!')
			}
			console.log('已输出至index.html中')
		})
	})
}).on('error', function(err) {
	console.log('错误信息：' + err)
})

2017-07-16 新增：

如果想处理抓取的html,可以使用cheerio模块，进行过滤，使用起来和jq类似，示例代码：

let $ = cheerio.load(html)
let movieList = $('.grid_view li')

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

wukongk

关注关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Node.js爬取网页数据完整源码带注释

LilyCoder的博客

11-22

518

// 加载http模块 var http = require('http'); // Cheerio 是一个Node.js的库，它可以从html的片断中构建DOM结构，然后提供像jquery一样的css选择器查询 var cheerio = require('cheerio'); // 定义网络爬虫的目标地址：自如友家的主页 var url = 'http://www.ziroom.com/'; http.get(url, function(res) { var html = '';

node学习 - 爬取数据，写入本地文件

明知迷途，从未折返

12-04

633

说明：利用node爬取凤凰网的新闻列表数据，地址：http://news.ifeng.com 需要的相关环境和模块：环境：需要安装node环境 http: Node.js提供了http模块，用于搭建HTTP服务端和客户端,可以直接引入不需要安装 cheerio: 用于抓取页面模块，为服务器特别定制的，快速、灵活、实施的jQuery核心实现安装： npm install --save ch...

参与评论您还未登录，请先登录后发表或查看评论

NodeJS 获取网页源代码

dgce32897的博客

05-30

1043

获取网页源代码 node 获取网页源代码 var http = require('http'); var url = "http://www.baidu.com/"; // 参数url 和回调函数 http.get(url, function (res) { var html = ''; // 绑定data事件回调函数累加htm...

Vanilla Clipper：一键保存网页的终极解决方案

热门推荐

zhang6223284的博客

06-25

1万+

前言准备工作创建工程今日头条爬虫代码后记前言昨天实现了草榴的爬取 nodejs 做一个简单的爬虫爬草榴，今天对代码做了一部分修改，增加了可以指定开始页和结束页，并且给所有文件都单独创建了文件夹。那么问题来了，说好的爬街拍图片呢？毕竟爬完草榴的东西并不适合展示，所以，今天又尝试了一下爬今日头条的街拍图片。Talk is cheap，show ...

nodejs 爬虫 html标签,nodejs爬取网页图片

weixin_42498987的博客

07-09

1000

一、思路概述1、通过node内置的http/https模块获取指定网站html2、通过第三方cheerio模块提取html中的所有img标签，所以运行前不要忘记npm install cheerio3、使用http/https请求所有img标签中的图片地址，并通过node内置的fs模块将返回的图片数据存储到文件系统中二、源码本例展示如何爬取w3cschool首页图片// 用于发送http请求con...

基于NodeJS的Express框架开发的动态网站项目源码+项目说明（已实现首页导航栏+中部轮播图等功能）.zip

02-20

基于NodeJS的Express框架开发的动态网站项目源码+项目说明（已实现首页导航栏+中部轮播图+以及电影列表的展现+底部导航链接+注册页面+视频播放页面+搜索页面+登录页面+用户管理页面+一键安装+电影抓取等功能）.zip

基于nodejs 的博客园爬虫项目全套源码分享

06-22

### Node.js 博客园爬虫项目全套源码分享 #### 项目概述 ...3. **数据存储**：解析后的数据可选择存储在本地 JSON 文件中或其他数据库（如 MongoDB、MySQL）。本项目演示了使用 JSON 文件存储数据的

Node爬取大批量文件的方法示例

10-16

主要介绍了Node爬取大批量文件的方法示例,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

Node爬虫爬取网页静态资源

weixin_33701564的博客

12-11

967

2019独角兽企业重金招聘Python工程师标准>>> ...

Node.js 使用http客户端向网站请求数据并保存

weixin_33697898的博客

09-17

475

app.js代码： // 内置http模块，提供了http服务器和客户端功能 var http=require("http"); // 内置文件处理模块 var fs=require('fs'); // 创建一个将流数据写入文件的WriteStream对象 var outstream=fs.createWriteStream('./retval.html'); // ...

node爬取新闻网并存入数据库

weixin_45086831的博客

11-17

258

node爬取新闻网并存入数据库本来想用python写的，但是pycharm的导入库有点小问题，发现node.js也可以操作，经过一上午的研究和请教一些大佬，终于成功了，这里附上我执行成功的代码给各位参考，当然哪里可以优化也请指出 const request = require('request') const cheerio = require('cheerio') const mysql=require('mysql') //导入库 const db=mysql.createPool({host:'l

nodejs如何将获得的数据保存到本地？

高先生的猫

08-19

4906

nodejs将获得的数据保存到本地可以使用Cookie进行数据保存或使用sessionStorage、localStorage进行数据保存。使用Cookie保存 Cookie这个恐怕是最常见也是用得最多的技术了，也是比较古老的技术了。 Cookie优点很多，使用起来很方便但它的缺点也很多：比如说跨域访问问题、不能保存过大的数据（最大4KB）、本地保存的数据会发送给服务器、浪费带宽等等。示例代码如下 function SetCookie(name, value) { var key

node抓取html页面,如何用nodejs抓取并存储网页内容

weixin_39757169的博客

06-02

564

//observe过的对象，有on off once hold collect tie等方法//这里只用了on，根据属性名添加侦听函数//用法跟jQuery.on类似，可以是对象批量侦听，可以逐个侦听reptile.on('url', callback)reptile.on({//根据 url ，获取 texturl: function(url) {var that = this//get方法发出...

nodejs中创建web服务，监听本地IP

ayanlp7153的博客

01-24

803

nodejs官网例子 var http = require('http'); http.createServer(function (req, res) { res.writeHead(200, {'Content-Type': 'text/plain'}); res.end('Hello World\n'); }).listen(1337, '127.0.0.1'...

NodeJs将富文本写入HTML文件

cyqzy的博客

06-27

3043

1. 引入fs模块fs = require 'fs'2. 将富文本写入html文件 # 判断目录是否存在，如果不存在就创建目录 exists = fs.existsSync("D:/files/sps/shtml"); if(!exists){ fs.mkdirSync("D:/files/sps/shtml"); } # 将富文本写入html ...

NodeJS实战：构建基础网页爬虫教程

"这篇教程将介绍如何使用Node.js来实现一个简单的网页爬虫，通过获取网页源码并解析数据，从而实现对特定网页内容的抓取。实例中以访问hao123网站的头条页面为例，展示了如何使用http.get()方法来请求网页内容。" ...