SiteFactory 版本如何进行文章采集

1.登陆后台 点击 ”内容管理” 在选择 “采集管理”。

图片点击可在新窗口打开查看此主题相关图片如下:
图片点击可在新窗口打开查看

2.在“采集管理向导”中选择 “添加采集项目”。

图片点击可在新窗口打开查看此主题相关图片如下:
图片点击可在新窗口打开查看

3.采集项目设置 这里我们以采集www.54it.com.cn亿讯网络学院中的c#板块为例子

图片点击可在新窗口打开查看此主题相关图片如下:
图片点击可在新窗口打开查看

注:编码选择 为我们提供了三种编码方式(指的是将要采集的网站的编码)。怎么样才能知道将要采集网站的编码方式呢?答案是查看对方的源代码。

亿讯网络 >> 学院 >> 程序开发 >> C#语言

上面的代码一看就明白对方采用的是GB2312那么我在这里也选择GB2312。

4.列表页采集设置

4.1获取列表页

图片点击可在新窗口打开查看此主题相关图片如下:
图片点击可在新窗口打开查看

点击“测试列表”按钮 左边的源码文本框中按照规则截取相应的源代码。

图片点击可在新窗口打开查看此主题相关图片如下:
图片点击可在新窗口打开查看

4.2获取连接

图片点击可在新窗口打开查看此主题相关图片如下:
图片点击可在新窗口打开查看

图片点击可在新窗口打开查看此主题相关图片如下:
图片点击可在新窗口打开查看

点击“测试连接”按钮 左边的源码文本框中按照规则截取相应的源代码

4.3分页设置

图片点击可在新窗口打开查看此主题相关图片如下:
图片点击可在新窗口打开查看

5.内容页采集设置 我在这里只举例设置文章标题跟文章内容其他选项大家可以根据自己的需要自行设置。

5.1 获取文章的标题

图片点击可在新窗口打开查看此主题相关图片如下:
图片点击可在新窗口打开查看

图片点击可在新窗口打开查看此主题相关图片如下:
图片点击可在新窗口打开查看

在列表中选择 “标题”列 使用采集规则 点击“设置采集规则”按钮设置好字段开始结束代码后 点击 测试字段 左边的源代码文本框中 显示结果 标题设置完毕。

5.2获取文章内容设置

在列表中选择 “文章内容”列 使用采集规则 点击“设置采集规则”按钮

图片点击可在新窗口打开查看此主题相关图片如下:
图片点击可在新窗口打开查看

图片点击可在新窗口打开查看此主题相关图片如下:
图片点击可在新窗口打开查看

设置好字段开始结束代码,大家可以根据自己网站的需要选择过滤参数。点击 测试字段 左边的源代码文本框中 显示结果 文章内容设置完毕。

注:在匹配获取文章内容时可以通过选择左方下拉列表中的网页列表来分析文章内容选择合适的字段开始结束标记。以求达到完美。

图片点击可在新窗口打开查看此主题相关图片如下:
图片点击可在新窗口打开查看

6.项目采集

在采集管理向导中 选择“开始采集” 选中要采集的项目 点击“开始采集”按钮 采集系统就开始运行了。

图片点击可在新窗口打开查看此主题相关图片如下:
图片点击可在新窗口打开查看

图片点击可在新窗口打开查看此主题相关图片如下:
图片点击可在新窗口打开查看

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值