爬虫
文章平均质量分 87
gg_yangliyang
这个作者很懒,什么都没留下…
展开
-
Spring Boot + Java爬虫 + 部署到Linux (三、Java爬虫使用代理,模拟登录,保存cookie)
很多网站对资源都有一定的限制。如果不登录,不是网站的登录用户(会员)访问的话,一些资源会访问不到。这对我们爬虫是十分不利的。而绝大多数网站sh...原创 2018-06-30 15:16:52 · 6826 阅读 · 0 评论 -
Spring Boot + Java爬虫 + 部署到Linux(四、使用WebSocket实现消息推送,并解决websocket中的autowired问题)
在爬虫的过程中,我们有时需要实时的爬取的过程显示出来。如果采用正常的http协议,只有客户端发送请求,服务器才能做出响应,但是爬虫是在后端跑的,什么时候产生什么信息,没法直接发送给前端。可能我们会想到一个办法,就是后端维护一个缓存信息,然后前端定时的轮询这个信息,并取走显示出来。但是有了websocket,服务器就可以直接向客户端发送信息了。相比轮询有以下优点:1. 节约带宽。 不停地轮询...原创 2018-06-30 17:03:59 · 1416 阅读 · 1 评论 -
Spring Boot + Java爬虫 + 部署到Linux (一、环境配置,新建一个Spring Boot项目)
最近接触了Spring Boot这个框架,感觉既方便又简单,相比于之前的SSM(H),需要的配置变少了很多,很多变成约定好的默认的配置即可。然后就想用Spring Boot开发一个Web网站,功能就是一个图片爬虫,然后将爬下来的图片提供打包下载,最后将其部署到一台Linux(CentOS7)服务器上。 如果是只想了解Java爬虫也是可以的,爬虫是相对独立的一部分。当初这个爬虫是我用p...原创 2018-06-25 20:22:00 · 1368 阅读 · 0 评论 -
Spring Boot + Java爬虫 + 部署到Linux(五、使用spring data JPA 实现数据访问层)
本来是想着搞个数据库,里面存一些图片的地址、后缀等以及图集的标题、大小等信息的。后来发现最重要的图片的URL信息是动态变化的,而且我实在是看不出什么规律,也就说图片的源是有时效的,而且时效很短,所以存储意义就不大了。不过重在参与,而且也不是所有网站都这样,所以还是实现出来吧。 首先呢,先要有个数据库吧。我使用的是mysql社区版,版本是5.7。安装mysql的时候,发现有时候出现安装...原创 2018-06-30 18:36:41 · 275 阅读 · 0 评论 -
Spring Boot + Java爬虫 + 部署到Linux(六、后端Controller实现、下载文件以及登录验证拦截器)
Controller就是控制层,就是mvc模式里面的c。控制前端页面的显示,以及向前端传递一些数据。这个就随便设置吧,没什么通用性。由于这个项目只有一个业务,所以主要界面也就一个,叫index。对应的Controller如下:import java.net.InetAddress;import java.net.UnknownHostException;import javax.servle...原创 2018-06-30 20:02:56 · 1840 阅读 · 0 评论 -
Spring Boot + Java爬虫 + 部署到Linux(七、前端)
我们先在项目的resources里面建两个目录。一个叫static放一些静态文件,一个叫templates,放html文件。由于没怎么学过前端,又想让界面比较美观,可以使用bootstrap,可以搜索下载。好像现在最新版是3.7了吧,我这还是3.6呢。然后还有一个必须的就是jquery,这个是bootstrap和自己写都很需要。在static里新建一个js目录,里面放上bootstrap.min....原创 2018-06-30 20:32:27 · 605 阅读 · 0 评论 -
Spring Boot + Java爬虫 + 部署到Linux(九、部署到Linux)
得益于Java的跨平台特性,以及spring boot的简化风格,部署到Linux是相当简单的。当然,首先要有一台Linux机器。第一步,得到项目jar包。 在项目的目录下边(就是和pom.xml同级的位置),打开命令行,输入 mvn install 。然后一直运行啊运行,最后显示一个“BUILD SUCCESS”,就代表成功了。然后进入到target目录下边,可以看到一个jar文件...原创 2018-07-07 19:10:56 · 428 阅读 · 0 评论