- 博客(5)
- 资源 (1)
- 收藏
- 关注
原创 puppeteer实战之网页爬虫,模拟操作《二》
1.前言 由于公司有几款新闻,视频类的app产品,于是乎文章和视频的稳定来源成为一个必须解决的问题。 公司也研究了很多的爬虫方案,最后使用puppeteer开发了一个文章的采集中心。 这是一个基于node的服务器,主要设计的思路是:当接收到抓取某个站点文章的任务后,node服务器就启动一个 爬虫器,将该网站的文章信息解析出来,然后上报给一个java服务器,由java负责数据的处理和存储。在
2018-02-03 19:30:06 7317
原创 JAVA 中的IO 操作
学过java的都知道,Java的 IO体系是由 字节流操作类和字符流操作类组成的,而字节流的IO操作都是基于InputStream和OutputStream,字符流的IO操作都是基于Reader和Writer;像什么缓冲流BufferedReader/BufferedWriter,BufferedInputStream/BufferedOutputStream ;转换流InputStreamRea...
2018-02-25 10:09:05 275
原创 JAVA 阿里云的OOS文件上传和下载
在项目中,通常需要加载一些图片,js和css的静态资源,如果放在自己的服务器里面太消耗资源,而阿里云的oos是有CDN加速的,在看了oos的文档之后,写了一个工具类,贴出代码方便以后复用:package com.weijie.core.util.aliyun;import java.io.ByteArrayInputStream;import java.io.File;import jav...
2018-02-25 09:20:19 4659
原创 JAVA 利用HttpClient封装get和post请求
在开发web项目时,有时候我们需要调用外部的接口。在查阅一下一些资料后,决定自己封装一个HttpRequest,此处是利用了HttpClient这个包:package com.master.core;import org.apache.commons.lang.StringUtils;import org.apache.commons.logging.Log;import org.apac...
2018-02-23 14:42:41 4932
原创 puppeteer安装报错Error: read ECONNRESET 《附》
1.puppeteer安装报错 这两天有小伙伴私信我,说在 npm i puppeteer之后报错,报错信息提示说下载chromium失败,跳过下载之类的。报错信息如下: 其实这是因为puppeteer里面内置的 chromium下载链接关闭了,这时候我们可以npm i --save puppeteer --ignore-scripts跳过安装
2018-02-06 18:02:00 1665
chromium无界面浏览器65版
2018-02-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人