疯子网页采集器之提取内容教程

最新推荐文章于 2023-11-26 16:43:26 发布

hwbbbb

最新推荐文章于 2023-11-26 16:43:26 发布

阅读量585

点赞数

分类专栏：疯子采集器文章标签：采集器

本文链接：https://blog.csdn.net/hwbbbb/article/details/84154222

版权

疯子采集器专栏收录该内容

9 篇文章 0 订阅

订阅专栏

疯子网页采集器之提取内容教程
第一步：
填写“链接开始”，0就是第一个链接，4就是第五个链接，这里填0
填写“地址变化”，比如4就会采集第1、5、9...的链接，这里填1
“保存图片”：采集图片，如果选择打钩保存图片地址，
就必须填写首页地址，就是要采集的网站的首页地址，没有填写保存图片会出错
“图片本地化”：把图片保存到服务器

点击“浏览器”，在地址栏输入内容页地址

比如    
http://www.youlu.net/2837850

等网页加载完再点击代码，
把代码复制粘贴到dreamweaver或别的网页编辑器打开方便浏览，
ctrl+a是全选，ctrl+C是复制，ctrl+v是粘贴

第二步：填写内容

填写内容规则，在代码中找到内容的开始标签和结束标签


标签头
<H3>图书详情</H3></DIV>

标签尾 <DIV style="Z-INDEX: 0; POSITION

开始标签和终止标签必需有一项是唯一的不然会出错：可以用Ctrl+F查找是否是唯一的，不然采集会出错第三步：去掉没用的提示比如内容详情目录：内容提要，文章节选，目录等标签头 <DIV class=txt-hd>

标签尾 </H5></DIV> 标签头必需是共同点：可以用Ctrl+F查找是否是唯一的，不然采集会出错第四步：去掉没用的提示如果还有没用的提示要去掉，方法类似第五步：内容１配置如果需要获取第二项数据可以　　　选中　　　“内容１” 然后填写　　　“内容１配置” 这里获取　　“有路价” 标签头 <EM id=yl_d_price>

标签尾 </EM></SPAN> 开始标签和终止标签必需有一项是唯一的不然会出错：可以用Ctrl+F查找是否是唯一的，不然采集会出错点击提取内容就可以看到效果了

hwbbbb

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
疯子网页采集器之提取内容教程

疯子网页采集器之提取内容教程第一步：填写“链接开始”，0就是第一个链接，4就是第五个链接，这里填0填写“地址变化”，比如4就会采集第1、5、9...的链接，这里填1“保存图片”：采集图片，如果选择打钩保存图片地址，就必须填写首页地址，就是要采集的网站的首页地址，没有填写保存图片会出错“图片本地化”：把图片保存到服务器点击“浏览器”，在地址栏输入内容页地址比如 http...
复制链接

扫一扫