动易采集教程完整版2

4.选项设置:

·更新时间、文章作者、文章来源、文章关键字、文章简介:
这些内容的设置与上述设置方法相同。
->使用例举:
源 码框中显示的时间、作者、来源信息为“<td colspan="2" class="Article_tdbgall">作者:<a href='#' title='壮志'>壮志</a> 文章来源:本站原创 点击数:<script language='javascript' src='/Help/GetHits.asp?ArticleID=394'></script> 更新时间:2005-5-13</td>”
则填写的时间、作者、来源信息为:
时间开始标记“> 更新时间:”
时间结束标记“</td>”
作者开始标记“作者:”
作者结束标记“ 文章来源”
来源开始标记“文章来源:”
来源结束标记“点击数:”
·您可以指定作者设置、来源设置和关键字词的自定义文字。
在关键字词设置中,如果想让关键字是正文的标题,关键词操作:
->可选择将标题打散为关键词(默认) 打散的字数可以指定
->也可以指定网页中截取的关键词
如:关键字:|如何|何去|去掉|掉图|图片|片随|随鼠|鼠标|标而|而放|放大|大或|或缩|缩小|小的|的功|功能|能|
·文章简介可指定从获取内容前的多少字符为简介

5.自定义设置:

这里显示您所设置的自定义字段。自定义字段设置请参阅本书自定义字段管理说明。

 

6.分页设置:

·正文分页设置:在设置正文分页时通常所在页面没有分页,那么这样选择显示视图网页的上部有个下拉菜单,记录的当前列表分页的所有标题,在其中选择有正文分页的正文页。

·当正文里出现有分页的时候,就要用到这个设置,先看下这篇文章的分页情况:

这样我们就可以截取代码了,如图示:

对于这个分页设置里的第三个选项:设置分页标签----这里的设置是选取区域段的全部的分页代码,如上面的图中的 “1”<----->“10” 区域,我们再看下此正文页的这段区域代码:

那么我们截取的代码就如下图所示:

设置好了,点“下一步”,我们会看到正确打开的页面里对分页地址正确获取得到了

->填写好相关参数后,单击“下一步”按钮进行采样测试。

采样测试

本步骤界面中,将测试显示采集的效果是否正常。如果有分页请注意下面的小红色文字的提示。

->采集所有测试页为内联页显示方便用户浏览和防变形,增加采集错误反馈机制,单击“下一步”按钮对采集的文章进行进行属性设置。


属性设置

本步骤为采集的最后一步,设置所采集文章在本网站中详细的属性,如所属栏目、专题、阅读点数、文章属性等信息,并可设置过滤选项、采集数量和采集属性。

1.基本设置:

·文章频道:就是要指定您现在要采集的文章是属于那一个文章频道中。
·栏目/专题:指定您现在要采集的文章是属于哪一个栏目和专题。
·文章状态:是确定您正要采集的文章的状态,包括草稿、待审核、终审通过。
·立即生成:如果您把这个勾选上,在采集完成后就把您所要采集的文章生成html。

2.属性设置:

·内容页分页方式:推荐选择手动分页,以对方正文分页为基础。注:如果选择自动分页,分页的字符数绝不能为0,否则在生成html时会出现问题。
其他具体设置可以参阅添加文章相应部分内容。

3.收费设置:

请参阅添加文章的相关收费部分。

4. 采集设置:


参数说明:
·过滤选项:过滤采集正文页中的HTML字符。
Iframe:过滤内联。
Object:过滤Falsh和控件。
Script:过滤js、vbs等脚本。
Class:过滤类。
Div:过滤层。
Span:过滤。
Table、Tr、Td:过滤表格属性。
Img:过滤图片。注意如果选择过滤图片采集过来的数据中将不会有图片
Font:过滤字体定义。
A:过滤链接,可防止用户点击链接为其它网址。
HTML:过滤。注意如果选择过滤HTML采集过来的数据将以纯文本形式显现
·采集数量:系统提供了三个选项
 ->采集列表中的所有文章
 ->采集列表中的N篇文章后停止采集
 ->采集列表中的N个分页后停止采集
·采集图片设置:
->保存远程图片
->自动给图片增加水印
->自动为第一张图片创建缩略图
->将文章内容中的Flash和图片的地址保存到根目录中的CollectionFilePath.txt文件中,以方便网际快车等软件批量下载
·文章采集顺序:正序采集或者倒序采集。而系统推荐用的就是倒序采集。
!如果您要启用立即发布,发布后要记得生成相应的JS文件。
->填写好相关参数后,单击“完成”按钮,出现成功信息,完成本采集项目设置。

采集信息操作

在添加好采集项目后,下面就可以开始进行信息采集的操作了操作的步骤非常管理,您可以在点击之间完成大量数据的录入。

1.单击后台左侧管理导航的“采集管理”->“文章采集”,出现“采集系统项目管理”界面:

2.在选择相应项目后,单击您要选择的采集方式按钮开始采集信息。

!在采集前,您可以先勾选“不录入数据库,只测试采集功能是否正常”,以测试建立的采集项目采集信息是否有效。

3.系统出现信息采集过程界面:

在这个界面中,顶部显示了信息采集的运行过程与统计信息,单击“停止采集”按钮可终止本次采集过程。

每一个采集的页面都显示了标题、作者、来源、关键字、页面地址和其它分页、图片等信息:

系统信息采集完成后,出现成功采集的提示信息:

系统自动返回“采集系统项目管理”界面,并在当前采集项目的“上次采集”列显示红色的最新采集日期。

4.在信息采集完成后,您可以进入相应的文章功能频道,查看采集的信息。如果您在采集项目的“属性设置”中没有勾选“通过审核”,您要审核后采集的信息才能显示在前台。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值