- 博客(4)
- 资源 (7)
- 收藏
- 关注
原创 火车头采集器 页面图片等信息采集
火车头采集器 页面图片等信息采集有些采集的页面中有图片或者其他内容如链接的word文档等等,如果采集下来,并保持链接呢。火车头采集器中给了较好的操作。在内容采集中,选择内容下载,如果仅仅是图片,勾选下载图片即可,还可以过滤页面中的垃圾信息,只选择页面中部分图片进行下载。此地请注意。一定要在总步骤的第四步中保存文档位置选择保存路径,否则鬼知道下载到哪里去了(它提示你正常下载,可是给出
2016-05-06 08:45:11 3583
原创 火车头采集器 当前网址内容采集 以及软件误标为已经采集的处理
火车头采集器 当前网址内容采集 以及软件误标为已经采集的处理火车头采集当前一组网页内容,不需要采集下一级别网页的内容,只需要在添加网址时用文件导入(网址文件列表),当然如果网页少可以只手工添加几个。另外如果发现采集的近1000文件中有几个损坏的,通常的原因是没有采集到内容,这是可以在data文件夹中找到数据库,把内容为空的记录复制到excel中,然后再只复制当前pageurl列到文本文件中
2016-05-04 12:10:39 3664
原创 火车头采集器 截取字符串 正则表达式
有时需要从采集内容或者网址中截取部分字符串,可以使用正则表达式截取如从/.../中截取出来,\/[\w]+\/,截取/example/字符串,含//符号,非常实用附录:以此网址为列 http://tieba.baidu.com/p/2376714043 采集 标题、时间、邮箱 来讲解 标题我们需要采集和 中间的内容写法 (?[\s\S]*?)这种与 正则参数
2016-05-02 22:06:45 15852
原创 火车头采集器 题解页面信息采集 过滤采集内容
网址采集用多页的方式,先添加第一页,一般是没有规律的,然后从2到n都是有规律的采集网址时,搜索页面的第一条在源代码中位置,看前面些附近的第一次出现的字符串作为起点,如。然后再看最后一条源代码中最后出现的后面附近,唯一出现的字符串,如(页面序号前的内容)。需要多测几次,避免字符串标记的不第一性和最后性。可以在测试中多多利用查找的命令。采集内容时标题可以在源代码中title内容前后
2016-05-02 09:58:24 4838
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人