![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
java爬虫
Sunbeam___
这个作者很懒,什么都没留下…
展开
-
po一个爬虫项目
package com.baosight.utils;import org.quartz.JobBuilder;import org.quartz.JobDetail;import org.quartz.Scheduler;import org.quartz.SchedulerFactory;import org.quartz.SimpleScheduleBuilder;import org.quartz.Trigger;import org.quartz.TriggerBuilder;i原创 2020-07-22 10:16:02 · 253 阅读 · 0 评论 -
PhontomJsUtil工具类
import org.apache.commons.io.FileUtils;import org.apache.commons.io.IOUtils;import org.openqa.selenium.By;import org.openqa.selenium.Dimension;import org.openqa.selenium.WebDriver;import org.openqa.selenium.phantomjs.PhantomJSDriver;import org.openqa原创 2020-07-22 10:14:57 · 146 阅读 · 0 评论 -
记录一个爬虫项目中遇到的问题及解决方案
1.项目初期是用jsoup爬取网页内内容,在测试中发现无法获取cookie,无法获取登录后页面,做了反爬虫jsoup爬取比较困难不建议。2.使用webmagic+chromeDriver爬虫遇到问题会打开一个真实的窗口3.使用webmagic+phantomJS爬虫遇到问题,登录时无法定位标签,通过固定浏览器尺寸解决;当进入页面后有弹窗需要点击关闭,使用click模拟点击关闭,因窗口是移动的出现无法关闭的情况,解决方法通过刷新关闭。4.项目基本完成在打包时遇到问题,classNotFound与main原创 2020-07-22 10:07:48 · 1122 阅读 · 0 评论 -
使用PhantomJSI在java后端生成ECharts图片
方法之前我们先说一下设计思路,有了好设计思路我们才能去写好一个程序1.初步思路①Web项目提供一个http服务,并公开此url地址,访问该地址可以获取Echarts统计图;②Java通过Runtime调用phantomjs脚本,并传入url和filename参数,相当于打开浏览器;③使用page.open(url)打开该地址,相当于在浏览器中浏览访问;④使用page.render(fil...原创 2019-08-06 11:17:05 · 1227 阅读 · 1 评论 -
java爬虫,解析URL
用到httpclient包跟jsoup包要处理的URL:https://news.ecnu.edu.cn/cf/4c/c1833a118604/page.psp爬取:c1833a118604——c1833a118704首先对url做处理,获取URL:public static int subUrl() { int page; String url = "https://news....原创 2019-08-02 09:52:20 · 821 阅读 · 0 评论