自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 资源 (7)
  • 收藏
  • 关注

原创 火车头采集器 页面图片等信息采集

火车头采集器 页面图片等信息采集有些采集的页面中有图片或者其他内容如链接的word文档等等,如果采集下来,并保持链接呢。火车头采集器中给了较好的操作。在内容采集中,选择内容下载,如果仅仅是图片,勾选下载图片即可,还可以过滤页面中的垃圾信息,只选择页面中部分图片进行下载。此地请注意。一定要在总步骤的第四步中保存文档位置选择保存路径,否则鬼知道下载到哪里去了(它提示你正常下载,可是给出

2016-05-06 08:45:11 3545

原创 火车头采集器 当前网址内容采集 以及软件误标为已经采集的处理

火车头采集器 当前网址内容采集 以及软件误标为已经采集的处理火车头采集当前一组网页内容,不需要采集下一级别网页的内容,只需要在添加网址时用文件导入(网址文件列表),当然如果网页少可以只手工添加几个。另外如果发现采集的近1000文件中有几个损坏的,通常的原因是没有采集到内容,这是可以在data文件夹中找到数据库,把内容为空的记录复制到excel中,然后再只复制当前pageurl列到文本文件中

2016-05-04 12:10:39 3625

原创 火车头采集器 截取字符串 正则表达式

有时需要从采集内容或者网址中截取部分字符串,可以使用正则表达式截取如从/.../中截取出来,\/[\w]+\/,截取/example/字符串,含//符号,非常实用附录:以此网址为列 http://tieba.baidu.com/p/2376714043 采集 标题、时间、邮箱 来讲解 标题我们需要采集和 中间的内容写法 (?[\s\S]*?)这种与 正则参数

2016-05-02 22:06:45 15629

原创 火车头采集器 题解页面信息采集 过滤采集内容

网址采集用多页的方式,先添加第一页,一般是没有规律的,然后从2到n都是有规律的采集网址时,搜索页面的第一条在源代码中位置,看前面些附近的第一次出现的字符串作为起点,如。然后再看最后一条源代码中最后出现的后面附近,唯一出现的字符串,如(页面序号前的内容)。需要多测几次,避免字符串标记的不第一性和最后性。可以在测试中多多利用查找的命令。采集内容时标题可以在源代码中title内容前后

2016-05-02 09:58:24 4781

信息学竞赛入门208题

信息学竞赛入门208题 细心整理对的,大多数可以在 http://www.sznoi.cn 提交

2011-02-25

openmeeting openoffice启动8100端口文件

openmeeting openoffice启动8100端口文件

2011-02-25

2007年安徽省青少年信息学奥林匹克竞赛试题及测试数据

2007年安徽省青少年信息学奥林匹克竞赛试题及测试数据

2010-04-20

1995-2009普及组复赛试题及测试数据

1995-2009普及组复赛试题及测试数据

2010-04-20

2008年安徽省安联杯信息学奥林匹克竞赛

2008年安徽省安联杯信息学奥林匹克竞赛

2010-04-20

全国信息学奥赛1995~2004年分类试题汇编完善程序

全国信息学奥赛1995~2004年分类试题汇编完善程序,必要的针对训练很有帮助。

2008-12-22

信息学奥赛入门pascal练习题

信息学奥赛入门pascal练习题,感觉在入门时多做些习题还是有帮助的。

2008-12-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除