- 博客(9)
- 收藏
- 关注
原创 Spring Boot + Java爬虫 + 部署到Linux(九、部署到Linux)
得益于Java的跨平台特性,以及spring boot的简化风格,部署到Linux是相当简单的。当然,首先要有一台Linux机器。第一步,得到项目jar包。 在项目的目录下边(就是和pom.xml同级的位置),打开命令行,输入 mvn install 。然后一直运行啊运行,最后显示一个“BUILD SUCCESS”,就代表成功了。然后进入到target目录下边,可以看到一个jar文件...
2018-07-07 19:10:56
436
原创 Spring Boot + Java爬虫 + 部署到Linux(八、Nginx实现反向代理、动静分离和websocket处理)
Nginx (engine x) 是一个高性能的HTTP和反向代理服务器,也是一个IMAP/POP3/SMTP服务器。所以,我们就用Nginx来实现反向代理和动静分离的功能。 反向代理,通过搜索、百科也可以大概知道。不过因为同为代理,所以总是和正向的代理区分不了。我的理解就是一个是对服务器的,一个是对客户端的。正向代理和反向代理都是客户将请求发向代理服务器,然后代理服务器再将请求发送...
2018-07-07 17:44:39
489
原创 Spring Boot + Java爬虫 + 部署到Linux(七、前端)
我们先在项目的resources里面建两个目录。一个叫static放一些静态文件,一个叫templates,放html文件。由于没怎么学过前端,又想让界面比较美观,可以使用bootstrap,可以搜索下载。好像现在最新版是3.7了吧,我这还是3.6呢。然后还有一个必须的就是jquery,这个是bootstrap和自己写都很需要。在static里新建一个js目录,里面放上bootstrap.min....
2018-06-30 20:32:27
608
原创 Spring Boot + Java爬虫 + 部署到Linux(六、后端Controller实现、下载文件以及登录验证拦截器)
Controller就是控制层,就是mvc模式里面的c。控制前端页面的显示,以及向前端传递一些数据。这个就随便设置吧,没什么通用性。由于这个项目只有一个业务,所以主要界面也就一个,叫index。对应的Controller如下:import java.net.InetAddress;import java.net.UnknownHostException;import javax.servle...
2018-06-30 20:02:56
1901
原创 Spring Boot + Java爬虫 + 部署到Linux(五、使用spring data JPA 实现数据访问层)
本来是想着搞个数据库,里面存一些图片的地址、后缀等以及图集的标题、大小等信息的。后来发现最重要的图片的URL信息是动态变化的,而且我实在是看不出什么规律,也就说图片的源是有时效的,而且时效很短,所以存储意义就不大了。不过重在参与,而且也不是所有网站都这样,所以还是实现出来吧。 首先呢,先要有个数据库吧。我使用的是mysql社区版,版本是5.7。安装mysql的时候,发现有时候出现安装...
2018-06-30 18:36:41
280
原创 Spring Boot + Java爬虫 + 部署到Linux(四、使用WebSocket实现消息推送,并解决websocket中的autowired问题)
在爬虫的过程中,我们有时需要实时的爬取的过程显示出来。如果采用正常的http协议,只有客户端发送请求,服务器才能做出响应,但是爬虫是在后端跑的,什么时候产生什么信息,没法直接发送给前端。可能我们会想到一个办法,就是后端维护一个缓存信息,然后前端定时的轮询这个信息,并取走显示出来。但是有了websocket,服务器就可以直接向客户端发送信息了。相比轮询有以下优点:1. 节约带宽。 不停地轮询...
2018-06-30 17:03:59
1428
1
原创 Spring Boot + Java爬虫 + 部署到Linux (三、Java爬虫使用代理,模拟登录,保存cookie)
很多网站对资源都有一定的限制。如果不登录,不是网站的登录用户(会员)访问的话,一些资源会访问不到。这对我们爬虫是十分不利的。而绝大多数网站sh...
2018-06-30 15:16:52
6935
原创 Spring Boot + Java爬虫 + 部署到Linux (二、Java爬虫)
这个小项目的主要(唯一)的业务就是一个爬虫。这个爬虫的功能就是爬取一个图片网站的图片。爬虫相对是独立的,如果只想做一个简单的爬虫,也可以参考。 做爬虫之前,先分析一下要爬的网站的结构。不要一上来就乱爬。由于爬虫的单位最大是一个图集(image set),所以爬虫的入口就设置为图集的地址。如果需要爬取更大的范围,爬图集也可以作为基础的子程序。 一般图集的首地址,会展示一些图集的基...
2018-06-27 19:56:29
1668
原创 Spring Boot + Java爬虫 + 部署到Linux (一、环境配置,新建一个Spring Boot项目)
最近接触了Spring Boot这个框架,感觉既方便又简单,相比于之前的SSM(H),需要的配置变少了很多,很多变成约定好的默认的配置即可。然后就想用Spring Boot开发一个Web网站,功能就是一个图片爬虫,然后将爬下来的图片提供打包下载,最后将其部署到一台Linux(CentOS7)服务器上。 如果是只想了解Java爬虫也是可以的,爬虫是相对独立的一部分。当初这个爬虫是我用p...
2018-06-25 20:22:00
1379
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人