自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 暑期实训二20220621

实训

2022-06-21 17:01:58 210 1

原创 山东大学暑期实训一20220620

blender初学

2022-06-20 18:55:40 107

原创 Gecco学习笔记(十三)

2021SC@SDUSC接上篇商品的基本信息抓取完成后,就要针对每个商品的详情页进行抓取,可以看到详情页的地址格式一般如下:http://item.jd.com/1861098.html。我们建立商品详情页的Bean:@Gecco(matchUrl="http://item.jd.com/{code}.html", pipelines="consolePipeline")public class ProductDetail implements HtmlBean { private st

2021-12-07 09:32:51 227

原创 Gecco学习笔记(十二)

2021SC@SDUSC接上篇public class ProductBrief implements HtmlBean { private static final long serialVersionUID = -377053120283382723L; @Attr("data-sku") @HtmlField(cssPath=".j-sku-item") private String code; @Text @HtmlField(cssPath=".p-name>

2021-12-07 09:18:23 478

原创 Gecco学习笔记(十一)

2021SC@SDUSC接上篇完成对AllSort的注入后,我们需要对AllSort进行业务处理,这里我们不做分类信息持久化等处理,只对分类链接进行提取,进一步抓取商品列表信息。看代码:@PipelineName("allSortPipeline")public class AllSortPipeline implements Pipeline<AllSort> { @Override public void process(AllSort allSort) { Lis

2021-12-07 09:06:56 125

原创 Gecco学习笔记(十)

2021SC@SDUSC用四篇文章简单使用一下Gecco爬虫使用java爬虫gecco抓取JD全部商品信息gecco爬虫十分的简单易用,JD全部商品信息的抓取9个类就能搞定。 要抓取JD网站的全部商品信息,首页上通过分类跳转到商品列表页,商品列表页对每个商品有详情页。那么我们通过找到所有分类就能逐个分类抓取商品信息。 ##入口地址http://www.jd.com/allSort.aspx,这个地址是JD全部商品的分类列表,我们以该页面作为开始页面,抓取JD的全部商品信息新建开始页面的Htm..

2021-12-06 20:45:50 566

原创 Gecco学习笔记(九)

2021SC@SDUSC简单说明一下Gecco中的htmlunit。htmlunit是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容。项目可以模拟浏览器运行,被誉为java浏览器的开源实现。这个没有界面的浏览器,运行速度也是非常迅速的。htmlunit采用的是rhino作为javascript的解析引擎下载 <dependency> <groupId>com.geccocrawler</groupId&

2021-12-06 20:33:36 142

原创 Gecco学习笔记(八)

2021SC@SDUSC最近在分析Gecco的源代码,所以就想着测试一下java爬虫gecco的稳定性测试结果:基本信息Interval: 5000,StartTime: "2016-03-22 14:47:40",ThreadCount: 1,StarUrlCount: 8单线程,共有8个初始抓取链接,每个请求抓取完成后休息5秒。爬虫监控数据 taocan.ctrip.com Statistics: "{"exception":134,"serverE

2021-12-06 20:25:06 277

原创 Gecco学习笔记(七)

2021SC@SDUSC简述一下Gecco爬虫框架线程和队列模型gecco的队列模型是两级队列模型。分为初始请求队列和派生请求队列。初始请求队列在循环模式下是一个阻塞式的FIFO队列,在非循环模式下是一个非阻塞式的FIFO队列。派生队列是一个非阻塞的剔重的FIFO队列; 线程首先去初始请求队列按照FIFO原则获取一个请求,如果线程数量大于初始请求队列的数量,多余的线程就会待定新的初始请求入队,因此建议线程数量不要大于初始请求队列的数量; 对于循环模式loop(true),线程在抓取完成后,会将初

2021-12-06 20:18:33 170

原创 Gecco学习笔记(六)

2021SC@SDUSC接上篇先定位解析出所有的href超链接,即每个列表项对应的文章详情地址,然后解析文章详情的所有文本信息Category类如下package com.crawler.gecco;import com.geccocrawler.gecco.annotation.HtmlField;import com.geccocrawler.gecco.annotation.Text;import com.geccocrawler.gecco.spider.HrefBean;

2021-11-21 16:42:46 313

原创 Gecco学习笔记(五)

2021SC@SDUSC下面通过实例,边实战边说明Gecco的用法。Gecco爬取分类数据爬取思路首先明确爬取的种子网站:http://news.iresearch.cn/编写爬虫启动入口我新建的是maven项目,所以要使用Gecco,第一步是添加maven依赖<dependency> <groupId>com.geccocrawler</groupId> <artifactId>gecco</artifac

2021-11-20 20:03:43 348

原创 Gecco学习笔记(四)

2021SC@SDUSC最近分析Gecco的爬虫代码,决定写个DEMO测试一下,也方便更好的分析其源代码,抓取网站http://zj.zjol.com.cn/home.html,主要抓取新闻的标题和发布时间做为抓取测试对象。抓取HTML节点通过像Jquery选择器一样选择节点,非常方便,Gecco代码主要利用注解实现来实现URL匹配,看起来比较简洁美观。添加Maven依赖<dependency> <groupId>com.geccocrawler</grou

2021-11-20 16:32:36 135

原创 Gecco学习笔记(三)

2021SC@SDUSC简单说明一下Gecco中的公共注解说明定义一个SpiderBean必须有的注解,告诉爬虫引擎什么样的url转换成该java bean,使用什么渲染器渲染,java bean渲染完成后传递给哪些管道过滤器继续处理matchUrl:摒弃正则表达式的匹配方式,采用更容易理解的{value}方式,如:https://github.com/{user}/{project}。user和project变量将会在request中获取。 render:bean渲染类型,计划支持htm

2021-10-30 21:43:30 365

原创 Gecco学习笔记(二)

2021SC@SDUSC本篇文章我会相对Gecco进行一下大体的框架概述GeccoEngineGeccoEngine 是爬虫引擎,每个爬虫引擎最好是一个独立进程,在分布式爬虫场景下,建议每台爬虫服务器(物理机或者虚机)运行一个 GeccoEngine。爬虫引擎包括 Scheduler、Downloader、Spider、SpiderBeanFactory、PipelineFactory5 个主要模块。Scheduler通常爬虫需要一个有效管理下载地址的角色,Scheduler 负责下载地

2021-10-30 21:17:37 606

原创 Gecco学习笔记(一):综述

2021SC@SDUSCGecco是一款用java语言开发的轻量化的易用的网络爬虫。作为国内大佬研发的java网络爬虫,Gecco整合了jsoup、httpclient、fastjson、spring、htmlunit、redission等优秀框架,我们使用者只需要配置一些jquery风格的选择器就能很快的写出一个爬虫。同时这个Gecco框架有优秀的可扩展性,框架基于开闭原则进行设计,对修改关闭、对扩展开放。以上是gecco爬虫官网的介绍,作为一个java爬虫,它简单易用,使用jquer...

2021-09-30 11:25:51 288

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除