一个简单的网页抓取工具

最新推荐文章于 2023-01-28 11:57:09 发布

weixin_30344795

最新推荐文章于 2023-01-28 11:57:09 发布

阅读量182

点赞数

原文链接：http://www.cnblogs.com/node-jili/p/10183127.html

版权

前两天遇到一个妹子，她说不会从拉网页，我想用node做个网页抓取工具是何尝的简单，于是装x之路开始了。

其实想法很简单，由网址得到html，由html解析css，js，image等，分别下载就行了，

一个难点就在路径的解析上，一般的的页面是域名的，例如www.baidu.com。而有的页面是http://xxxxxx.com/c/xxxxx/xxxxxxx/index.html，路径层级比较深，突然想到sea.js，一定对路径问题也很头疼，简单看了一下，确实里面的正则一个比一个复杂，没办法硬着头皮来吧。正好把正则的正向零宽断言看了一下，感觉不是以前我想的那么难。

另个问题是另一个是异步多线程问题，有的页面里面一定有很多图片，难道我用单线程下载吗？明显不合适，所以要用多线程，怎么使用多线程呢，参考我的文章node多线程服务器，这里不再赘述。而这里是多线程请求，参考cluster模块就行了。

再一个就是node的异步编程方案，async/await函数和promise对象的使用，下载首页的时候是要阻塞的，而下载css，js，image都是同步非阻塞的。

好了说这么多不如上代码：

一个简单的网页抓去工具（node版）

为什么不弄到github上呢？为自己的网站拉点流量吗。

注：该链接是安全连接，不会将你的cookie发送到我的服务器，然后登录到你的cnblog，删除你的博客，请放心使用。

转载于:https://www.cnblogs.com/node-jili/p/10183127.html

weixin_30344795

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
一个简单的网页抓取工具

前两天遇到一个妹子，她说不会从拉网页，我想用node做个网页抓取工具是何尝的简单，于是装x之路开始了。其实想法很简单，由网址得到html，由html解析css，js，image等，分别下载就行了，一个难点就在路径的解析上，一般的的页面是域名的，例如www.baidu.com。而有的页面是http://xxxxxx.com/c/xxxxx/xxxxxxx/index.html，路径层级比较深...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。