自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(7)
  • 收藏
  • 关注

转载 RuiJi Scraper 分页抽取

如果想抽取分页结,您需要在规则配置中配置分页选择器,分页选择器位于规则编辑器最下方,如图所示 请注意以下分页选择器的配置要求 1. 分页选择器的默认名称为_paging,请不要修该名称 2. 分页选择器要求选择出的结果为链接地址 下面我们以百度新闻的搜索结果为例举例说明下分页选...

2018-12-03 15:55:00 108

转载 使用RuiJi Scraper将文章导入WordPress

WordPress做为个人博客系统,小型企业网站被越来越多的用户使用。个人站长或企业网编在日常编辑中会转发一些精彩的内容到自己的站点。 重复的复制黏贴操作往往会令人烦躁。RuiJi Scraper注意到了这点,使用RuiJiScraper的导入工具可以轻松将RuiJi Scraper抽取的...

2018-11-20 06:02:00 167

转载 RuiJi Scraper 选择器函数

选择器函数用于用户调用自定义方法处理抽取结果,我们需要抽取的页面显示的抽取结果,有可能并不是我们想要的最终结果,这时候我们就需要使用函数来进行一些特殊的转换操作,以使最终的抽取结果满足我们的需要。 例如我们往往在一些网站看到的文章时间是x分钟前,x小时前。这样的结果我们无法以日期的形式进行存...

2018-11-20 06:01:00 132

转载 RuiJi Scraper 网页视觉识别

网页设计师在设计网页的过程中,往往会考虑页面的视觉结构,这使得使用者可以快速分辨出网页不同区域(RuiJiScraper的数据块,数据片,元数据就是基于此所定义)。在大多数的网页中,页面中的不同的区域会通过横向或纵向布局,布局块边距等来达到视觉识别目的。以如下页面为例: 从整体上来看,该页...

2018-11-20 06:00:00 127

转载 RuiJi Scraper基础 – RuiJi表达式模型

前言 RuiJi Scraper是一款可视化的浏览器爬虫扩展,是一款适合金融、新闻编辑、新媒体人员、个人站点、爬虫工作者数据采集工具。 RuiJi表达式是RuiJi Scraper的抽取模型,同时也是RuiJi.Net开源爬虫框架的抽取模型,RuiJi.Net是github上的开源项目,...

2018-11-03 12:18:00 103

转载 RuiJi.Net 抽取规则模型 - RuiJi Expression

RuiJi.Net的设计目标是一个可以分布式部署的 .Net爬虫框架,项目的目的是对大量的网站进行更新检查及抓取,使用者可以设置新闻源的检查时间间隔,在检测到新闻源更新后,会将更新的地址发送给下载器(或下载节点),再由抽取器(或抽取节点)对数据提取及清洗。 项目地址 https://g...

2018-06-28 19:32:00 152

转载 RuiJi.Net .NET 开源爬虫框架

项目地址 https://github.com/zhupingqi/RuiJi.Net https://gitee.com/zhupingqi/RuiJi.Net 文档 http://www.ruijihg.com/archives/ruijinet/getting-started ...

2018-06-07 22:24:00 184

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除