作者:小文 发布于:2012-3-29 10:58 Thursday
分类:软件培训
v7版本的PHP插件和2010的插件是一样的。还是只处理列表页,内容页,多页的网页源代码,保存时的标签。
在该教程中用一个简单的例子对所有可用到插件的地方进行了演示。
在压缩包中包含了所有教程中使用到的文件。需要注意的一点是,用户使用的采集器版本需要是3.27及以后的版本。如果您的版本低于这个时间,请下载最新手动更新包更新。更新地址 http://board.locoy.com/?post=95 .注意,请先更新,再导入规则进行测试。
作者:小文 发布于:2010-8-28 12:45 Saturday
分类:其它资源
有时,我们采集的数据类似 "你好", 这些字符在源代码中是这个样子,但在网页中确是正常显示为中文.这类代码叫做html实体 ,我们可以通过PHP的内置函数,对其进行转换,以方便查阅.
php代码如下:
echo mb_convert_encoding("你好", "gb2312", "HTML-ENTITIES"); //输出:你好
如果您使用php插件,可能需要添加 php_mbstring.dll 扩展.火车采集器中PHP插件的扩展添加方法请查看文章 http://board.locoy.com/?post=34
作者:小文 发布于:2010-8-28 12:19 Saturday
分类:常见问题
火车采集器的PHP插件的实现原理是使用php命令行模式,向php的cli文件发送命令,然后PHP处理php文件,采集器获取返回的数据.从理论上说,PHP插件可以实现几乎所有的PHP功能.关于PHP命令行,大家可以参考官方的权威说明 http://docs.php.net/manual/zh/features.commandline.php
火车采集器中PHP执行程序为Site.exe,对应的php.ini为Site.ini.所有的PHP文件都放在System目录下.PHP命令行程序执行时的工作目录为火车采集器主程序所在目录.如果您需要修改PHP里的一些参数,可以通过修改Site.ini来实现.默认的Site.ini只有PHP的一些常用功能,很多扩展没有加载.您可以按自己的需求,增加或是去除扩展.
如果您是非PHP专业人员,只是使用现成的插件,当提示您没有找到某个扩展或是方法时,您可以直接下载该压缩包并直接解压覆盖到火车采集器System目录下去.该压缩包包含了PHP常见的所有扩展.