一个简单的网页抓取工具

前两天遇到一个妹子,她说不会从拉网页,我想用node做个网页抓取工具是何尝的简单,于是装x之路开始了。

其实想法很简单,由网址得到html,由html解析css,js,image等,分别下载就行了,

一个难点就在路径的解析上,一般的的页面是域名的,例如www.baidu.com。而有的页面是http://xxxxxx.com/c/xxxxx/xxxxxxx/index.html,路径层级比较深,突然想到sea.js,一定对路径问题也很头疼,简单看了一下,确实里面的正则一个比一个复杂,没办法硬着头皮来吧。正好把正则的正向零宽断言看了一下,感觉不是以前我想的那么难。

另个问题是另一个是异步多线程问题,有的页面里面一定有很多图片,难道我用单线程下载吗?明显不合适,所以要用多线程,怎么使用多线程呢,参考我的文章node多线程服务器,这里不再赘述。而这里是多线程请求,参考cluster模块就行了。

再一个就是node的异步编程方案,async/await函数和promise对象的使用,下载首页的时候是要阻塞的,而下载css,js,image都是同步非阻塞的。

好了说这么多不如上代码:

一个简单的网页抓去工具(node版)

为什么不弄到github上呢?为自己的网站拉点流量吗。

注:该链接是安全连接,不会将你的cookie发送到我的服务器,然后登录到你的cnblog,删除你的博客,请放心使用。

转载于:https://www.cnblogs.com/node-jili/p/10183127.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值