·更新时间、文章作者、文章来源、文章关键字、文章简介:
这些内容的设置与上述设置方法相同。
->使用例举:
源 码框中显示的时间、作者、来源信息为“<td colspan="2" class="Article_tdbgall">作者:<a href='#' title='壮志'>壮志</a> 文章来源:本站原创 点击数:<script language='javascript' src='/Help/GetHits.asp?ArticleID=394'></script> 更新时间:2005-5-13</td>”
则填写的时间、作者、来源信息为:
时间开始标记“> 更新时间:”
时间结束标记“</td>”
作者开始标记“作者:”
作者结束标记“ 文章来源”
来源开始标记“文章来源:”
来源结束标记“点击数:”
·您可以指定作者设置、来源设置和关键字词的自定义文字。
在关键字词设置中,如果想让关键字是正文的标题,关键词操作:
->可选择将标题打散为关键词(默认) 打散的字数可以指定
->也可以指定网页中截取的关键词
如:关键字:|如何|何去|去掉|掉图|图片|片随|随鼠|鼠标|标而|而放|放大|大或|或缩|缩小|小的|的功|功能|能|
·文章简介可指定从获取内容前的多少字符为简介
5.自定义设置:
这里显示您所设置的自定义字段。自定义字段设置请参阅本书自定义字段管理说明。
6.分页设置:
·正文分页设置:在设置正文分页时通常所在页面没有分页,那么这样选择显示视图网页的上部有个下拉菜单,记录的当前列表分页的所有标题,在其中选择有正文分页的正文页。
·当正文里出现有分页的时候,就要用到这个设置,先看下这篇文章的分页情况:
对于这个分页设置里的第三个选项:设置分页标签----这里的设置是选取区域段的全部的分页代码,如上面的图中的 “1”<----->“10” 区域,我们再看下此正文页的这段区域代码:
那么我们截取的代码就如下图所示:
设置好了,点“下一步”,我们会看到正确打开的页面里对分页地址正确获取得到了
->填写好相关参数后,单击“下一步”按钮进行采样测试。
采样测试
本步骤界面中,将测试显示采集的效果是否正常。如果有分页请注意下面的小红色文字的提示。
->采集所有测试页为内联页显示方便用户浏览和防变形,增加采集错误反馈机制,单击“下一步”按钮对采集的文章进行进行属性设置。
属性设置
本步骤为采集的最后一步,设置所采集文章在本网站中详细的属性,如所属栏目、专题、阅读点数、文章属性等信息,并可设置过滤选项、采集数量和采集属性。
1.基本设置:
·文章频道:就是要指定您现在要采集的文章是属于那一个文章频道中。
·栏目/专题:指定您现在要采集的文章是属于哪一个栏目和专题。
·文章状态:是确定您正要采集的文章的状态,包括草稿、待审核、终审通过。
·立即生成:如果您把这个勾选上,在采集完成后就把您所要采集的文章生成html。
2.属性设置:
·内容页分页方式:推荐选择手动分页,以对方正文分页为基础。注:如果选择自动分页,分页的字符数绝不能为0,否则在生成html时会出现问题。
其他具体设置可以参阅添加文章相应部分内容。
3.收费设置:
请参阅添加文章的相关收费部分。
参数说明:
·过滤选项:过滤采集正文页中的HTML字符。
Iframe:过滤内联。
Object:过滤Falsh和控件。
Script:过滤js、vbs等脚本。
Class:过滤类。
Div:过滤层。
Span:过滤。
Table、Tr、Td:过滤表格属性。
Img:过滤图片。注意如果选择过滤图片采集过来的数据中将不会有图片
Font:过滤字体定义。
A:过滤链接,可防止用户点击链接为其它网址。
HTML:过滤。注意如果选择过滤HTML采集过来的数据将以纯文本形式显现
·采集数量:系统提供了三个选项
->采集列表中的所有文章
->采集列表中的N篇文章后停止采集
->采集列表中的N个分页后停止采集
·采集图片设置:
->保存远程图片
->自动给图片增加水印
->自动为第一张图片创建缩略图
->将文章内容中的Flash和图片的地址保存到根目录中的CollectionFilePath.txt文件中,以方便网际快车等软件批量下载
·文章采集顺序:正序采集或者倒序采集。而系统推荐用的就是倒序采集。
!如果您要启用立即发布,发布后要记得生成相应的JS文件。
->填写好相关参数后,单击“完成”按钮,出现成功信息,完成本采集项目设置。
采集信息操作
在添加好采集项目后,下面就可以开始进行信息采集的操作了操作的步骤非常管理,您可以在点击之间完成大量数据的录入。
1.单击后台左侧管理导航的“采集管理”->“文章采集”,出现“采集系统项目管理”界面:
2.在选择相应项目后,单击您要选择的采集方式按钮开始采集信息。
!在采集前,您可以先勾选“不录入数据库,只测试采集功能是否正常”,以测试建立的采集项目采集信息是否有效。
3.系统出现信息采集过程界面:
在这个界面中,顶部显示了信息采集的运行过程与统计信息,单击“停止采集”按钮可终止本次采集过程。
每一个采集的页面都显示了标题、作者、来源、关键字、页面地址和其它分页、图片等信息:
系统信息采集完成后,出现成功采集的提示信息:
系统自动返回“采集系统项目管理”界面,并在当前采集项目的“上次采集”列显示红色的最新采集日期。
4.在信息采集完成后,您可以进入相应的文章功能频道,查看采集的信息。如果您在采集项目的“属性设置”中没有勾选“通过审核”,您要审核后采集的信息才能显示在前台。