火车头采集器 题解页面信息采集 过滤采集内容

70 篇文章 0 订阅
56 篇文章 0 订阅
网址采集用多页的方式,先添加第一页,一般是没有规律的,然后从2到n都是有规律的
采集网址时,搜索页面的第一条在源代码中位置,看前面些附近的第一次出现的字符串作为起点,如
<article class="excerpt">。然后再看最后一条源代码中最后出现的后面附近,唯一出现的字符串,如
<div class="pagination"><ul><li class="prev-page">(页面序号前的内容)。
需要多测几次,避免字符串标记的不第一性和最后性。可以在测试中多多利用查找的命令。
采集内容时标题可以在源代码中title内容前后唯一性
采集内容时内容很重要,我因为采集的是C++代码,所以用了以下起始内容


#include
</textarea></div>
虽然搞丢了一个#include前缀,但是采集完整代码也是值得的。

发布中,我主要用了发布到文件,其中保存成网页的较多,在默认模板中,如果保存成word等可能需要office组件的支持,跟office版本关系密切,需要实验。
采集内容中有广告代码和分享代码,一般不需要但是又占据页面不少内容,可以在采集内容中“数据处理”添加替换处理,添加了两条,如
<div class="banner banner-post"><script type="text/javascript">var jd_union_unid="262760006",jd_ad_ids="505:6",jd_union_pid="CIyl5NvPKRDGzKV9GgAgr/XLiQEqAA==";var jd_width=960;var jd_height=90;var jd_union_euid="";</script>
<script type="text/javascript" charset="utf-8" src="http://u.x.jd.com/static/js/auto.js"></script>


<script type="text/javascript">
        document.write('<a style="display:none!important" id="tanx-a-mm_54142854_9388102_31856578"></a>');
        tanx_s = document.createElement("script");
        tanx_s.type = "text/javascript";
        tanx_s.charset = "gbk";
        tanx_s.id = "tanx-s-mm_54142854_9388102_31856578";
        tanx_s.async = true;
        tanx_s.src = "http://p.tanx.com/ex?i=mm_54142854_9388102_31856578";
        tanx_h = document.getElementsByTagName("head")[0];
        if(tanx_h)tanx_h.insertBefore(tanx_s,tanx_h.firstChild);
</script>


<iframe frameborder="0" id="mtcontent" scrolling="no" style="width:780px;height:260px;" src="http://x.union.meituan.com/movie?type=83&start=0&nums=6&source=4818257b4afd6f111bccc7da867cd5f6463&callback=1"></iframe>
</div>
<article class="article-content">
           
<dl>  
替换为空
<div style=float:left><!-- JiaThis Button BEGIN -->
<div id="jiathis_style_32x32">
<a class="jiathis_button_qzone"></a>
<a class="jiathis_button_tsina"></a>
<a class="jiathis_button_tqq"></a>
<a class="jiathis_button_renren"></a>
<a class="jiathis_button_kaixin001"></a>
<a href="http://www.jiathis.com/share/" class="jiathis jiathis_txt jtico jtico_jiathis" target="_blank"></a>
<a class="jiathis_counter_style"></a>
</div>
<script type="text/javascript" src="http://v2.jiathis.com/code/jia.js" charset="utf-8"></script>
<!-- JiaThis Button END --></div>
替换为空。


重新开始一次任务时,需要先清楚网址库,然后清空采集数据库,如果是保存成文件环节失败,可以只进行发布环节。
采集任务可以复制,然后粘贴,同时也可以导出备份为特殊格式文件。以备后用。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值