疯子网页采集器之提取内容教程 第一步: 填写“链接开始”,0就是第一个链接,4就是第五个链接,这里填0 填写“地址变化”,比如4就会采集第1、5、9...的链接,这里填1 “保存图片”:采集图片,如果选择打钩保存图片地址, 就必须填写首页地址,就是要采集的网站的首页地址,没有填写保存图片会出错 “图片本地化”:把图片保存到服务器 点击“浏览器”,在地址栏输入内容页地址 比如 http://www.youlu.net/2837850 等网页加载完再点击代码, 把代码复制粘贴到dreamweaver或别的网页编辑器打开方便浏览, ctrl+a是全选,ctrl+C是复制,ctrl+v是粘贴 第二步:填写内容 填写内容规则,在代码中找到内容的开始标签和结束标签 标签头 <H3>图书详情</H3></DIV>
标签尾 <DIV style="Z-INDEX: 0; POSITION
开始标签和终止标签必需有一项是唯一的不然会出错: 可以用Ctrl+F查找是否是唯一的,不然采集会出错 第三步:去掉没用的提示 比如内容详情目录:内容提要,文章节选,目录等 标签头 <DIV class=txt-hd>
标签尾 </H5></DIV> 标签头必需是共同点:可以用Ctrl+F查找是否是唯一的,不然采集会出错 第四步:去掉没用的提示 如果还有没用的提示要去掉,方法类似 第五步:内容1配置 如果需要获取第二项数据可以 选中 “内容1” 然后填写 “内容1配置” 这里获取 “有路价” 标签头 <EM id=yl_d_price>
标签尾 </EM></SPAN> 开始标签和终止标签必需有一项是唯一的不然会出错: 可以用Ctrl+F查找是否是唯一的,不然采集会出错 点击提取内容就可以看到效果了