自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

转载 Node爬虫:爬取新浪博客

《Node爬虫》系列文章: Node爬虫:批量下载图片 Node爬虫:批量下载网页 Node爬虫:从网页中抽取数据 Node爬虫:爬取新浪博客 借助前面已经实现的图片下载器(pictureDownload.js)、网页下载器(htmlDownload.js)、网页数据...

2018-03-20 17:58:00 235

转载 HTTP 头部字段 Access-Control-Allow-Origin

前后端分离的协作开发方式,已经被很多公司采用。若前后端部署在不同的域名下,就会碰到跨域的问题。对于跨域的问题,W3C 有标准的解决方案,即跨域资源共享(Cross-origin resource sharing),缩写为 CORS。详细了解 CORS,可以参考阮一峰的博文:跨域资源共享 COR...

2018-03-02 18:08:00 1771

转载 Node爬虫:从网页中抽取数据

借助 Node.js 生态系统中的第三方模块 cheerio ,可以很轻松地从 html 中抽取数据。cheerio 是一个 HTML 解析器,其实现灵活、快速、精简,API 非常接近 jQuery 。下面的代码,以爬取新浪博客为使用场景,展示如何抽取博客标题、每篇博文的标题、正文、时间、分...

2018-01-31 19:12:00 124

转载 Node爬虫:批量下载网页

编写网页爬虫时,爬取 html 页面是基本功能。在 Node.js 中,只需借助内置的 http 模块,即可实现一个网页下载器,代码如下: const http = require('http') const https = require('https') const iconv = re...

2018-01-30 21:11:00 506

转载 Node爬虫:批量下载图片

编写网页爬虫时,不仅要爬取 html 页面,往往需要把 html 页面里的图片抽取并下载,因此有必要实现批量图片下载。 在 Node.js 中,无需第三方模块,只需借助内置的 http 模块和 fs 模块,用很简短的代码,就能实现一个图片下载器,代码如下: const fs = requi...

2018-01-29 21:12:00 441

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除