php snoopy js,PHP使用Snoopy类实现页面抓取的方法

最新推荐文章于 2024-03-05 14:53:25 发布

要努力的子健

最新推荐文章于 2024-03-05 14:53:25 发布

阅读量190

点赞数

文章标签： php snoopy js

本篇文章主要介绍PHP使用Snoopy类实现页面抓取的方法，感兴趣的朋友参考下，希望对大家有所帮助。

本文实例讲述了php中Snoopy类用法，具体分析如下：

这里演示了php中如何通过Snoopy抓取网页信息/*

You need the snoopy.class.php from

http://snoopy.sourceforge.net/

include("snoopy.class.php");

$snoopy = new Snoopy;

// need an proxy?:

//$snoopy->proxy_host = "my.proxy.host";

//$snoopy->proxy_port = "8080";

// set browser and referer:

$snoopy->agent = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)";

$snoopy->referer = "http://www.jonasjohn.de/";

// set some cookies:

$snoopy->cookies["SessionID"] = '238472834723489';

$snoopy->cookies["favoriteColor"] = "blue";

// set an raw-header:

$snoopy->rawheaders["Pragma"] = "no-cache";

// set some internal variables:

$snoopy->maxredirs = 2;

$snoopy->offsiteok = false;

$snoopy->expandlinks = false;

// set username and password (optional)

//$snoopy->user = "joe";

//$snoopy->pass = "bloe";

// fetch the text of the website www.google.com:

if($snoopy->fetchtext("http://www.google.com")){

// other methods: fetch, fetchform, fetchlinks, submittext and submitlinks

// response code:

print "response code: ".$snoopy->response_code."
\n";

// print the headers:

print "Headers:
";

while(list($key,$val) = each($snoopy->headers)){

print $key.": ".$val."
\n";

}

print "
\n";

// print the texts of the website:

print "

".htmlspecialchars($snoopy->results)."

\n";

}

else {

print "Snoopy: error while fetching document: ".$snoopy->error."\n";

}

总结：以上就是本篇文的全部内容，希望能对大家的学习有所帮助。

相关推荐：

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

要努力的子健

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

php 采集邮箱,采集邮箱的php代码(抓取网页中的邮箱地址)

weixin_32459553的博客

03-10

1484

采集邮箱的php代码(抓取网页中的邮箱地址)复制代码代码如下:$url='http://www.jb51.net'; //这个网页里绝对含有邮件地址。$content=file_get_contents($url);//echo $content;function getEmail($str) {//$pattern = "/([a-z0-9]*[-_\.]?[a-z0-9]+)*@([a-z0...

php抓取网页内容汇总

瞧字不识

10-10

6290

①、使用php获取网页内容 http://hi.baidu.com/quqiufeng/blog/item/7e86fb3f40b598c67d1e7150.html header("Content-type: text/html; charset=utf-8"); 1、

参与评论您还未登录，请先登录后发表或查看评论

PHP采集类snoopy详细介绍(snoopy使用教程)

12-19

Snoopy是一个php类，用来模拟浏览器的功能，可以获取网页内容，发送表单，可以用来开发一些采集程序和小偷程序，本文章详细介绍snoopy的使用教程。 Snoopy的一些特点: 抓取网页的内容 fetch 抓取网页的文本内容 (去除HTML标签) fetchtext 抓取网页的链接，表单 fetchlinks fetchform 支持代理主机支持基本的用户名/密码验证支持设置 user_agent, referer(来路), cookies 和 header content(头文件) 支持浏览器重定向，并能控制重定向深度能把网页中的链接扩展成高质量的url(默认) 提交数据并且获取返回

snoopy.class.php 模拟登陆,用Snoopy模拟登录网页并抓取登录后的页面数据

weixin_35840528的博客

03-09

300

snoopy是一个php类，用来模仿web浏览器的功能，它能完成获取网页内容和发送表单的任务。下面是一个模拟登录页面并完成登录后的页面数据抓取工作的例子：include "Snoopy.class.php";$snoopy = new Snoopy;$submit_url = "http://www.a.com/jira/login.jsp"; //form表单 post的地址$submit_va...

snoopy php 动态js,php基于Snoopy解析网页html的方法

weixin_31673213的博客

03-25

142

本文实例讲述了php基于Snoopy解析网页html的方法。分享给大家供大家参考。具体实现方法如下：set_time_limit(0);$user = array(‘20517‘, ‘20518‘);header("content-Type: text/html; charset=utf-8");require_once ‘./Snoopy.php‘;$snoopy = new Snoopy();...

snoopy.class.php 模拟登陆,基于Snoopy的PHP近似完美获取网站编码的代码

weixin_28487725的博客

03-09

229

基于Snoopy的PHP近似完美获取网站编码用于php爬虫，获取编码准确率99.9%, 还有部分不能获取，求大牛完善先要到网上下载Snoopy.class.php调用方法：require 'lib/Snoopy.class.php';require 'lib/WebCrawl.class.php';//包含下面代码$go=new WebCrawl('http://www.baidu.com');...

snoopy

仅个人收集用，请不要抱太大期望

07-11

869

Snoopy是一个php类，用来模拟浏览器的功能，可以获取网页内容，发送表单。下载snoopySnoopy的一些特点:1抓取网页的内容 fetch2 抓取网页的文本内容 (去除HTML标签) fetchtext3抓取网页的链接，表单 fetchlinks fetchform4 支持代理主机5支持基本的用户名/密码验证6 支持设置 user_agent, referer(来路), cooki

基于Snoopy的PHP近似完美获取网站编码的代码

10-28

基于Snoopy类的PHP代码实现近似完美获取网站编码的方法涉及到网络爬虫技术中一个常见问题——准确地获取网页的字符编码。字符编码问题在进行网页数据抓取、处理时至关重要，因为如果编码不正确，抓取的数据在处理和...

基于PHP的简单采集数据入库程序

12-19

同时，通过`$_GET`参数传递采集页数，使用JavaScript进行动态跳转以实现分页采集。此外，还提到了其他可能相关的PHP采集工具和教程，如CURL扩展、Snoopy类等。总的来说，这个程序展示了如何使用PHP进行简单的网页...

海量网页爬虫系统设计报告.pdf

08-11

- 编程实践：如类、方法的定义和使用。 7. 爬虫类设计 - LinkTypeData类：存储链接类型数据，例如链接地址和链接文本。 - 数据结构：使用ArrayList、数组等数据结构存储和处理数据。 8. 爬虫工作原理示例 - 爬虫...

PHP采集类Snoopy抓取图片实例

12-18

用了两天php的Snoopy这个类，发现很好用。获取请求网页里面的所有链接，直接使用fetchlinks就可以，获取所有文本信息使用fetchtext（其内部还是使用正则表达式在进行处理），还有其它较多的功能，如模拟提交表单等。使用方法：先下载Snoopy类，下载地址：http://sourceforge.net/projects/snoopy/ 先实例化一个对象，然后调用相应的方法即可获取抓取的网页信息复制代码代码如下: include ‘snoopy/Snoopy.class.php’; $snoopy = new Snoopy(); $sourceURL =

使用PHP curl模拟浏览器抓取网站信息

12-18

官方解释curl是一个利用URL语法在命令行方式下工作的文件传输工具。curl是一个利用URL语法在命令行方式下工作的文件传输工具。它支持很多协议：FTP, FTPS, HTTP, HTTPS, GOPHER, TELNET, DICT, FILE 以及 LDAP。curl同样支持HTTPS认证，HTTP POST方法, HTTP PUT方法, FTP上传, kerberos认证, HTTP上传, 代理服务器, cookies, 用户名/密码认证, 下载文件断点续传,上载文件断点续传, http代理服务器管道（ proxy tunneling）, 甚至它还支持IPv6, socks5代理服务器

PHP正则+Snoopy抓取框架实现的抓取淘宝店信誉功能实例

10-19

主要介绍了PHP正则+Snoopy抓取框架实现的抓取淘宝店信誉功能,结合实例形式分析了Snoopy框架的使用及正则匹配相关操作技巧,需要的朋友可以参考下

php基于Snoopy解析网页html的方法

12-19

本文实例讲述了php基于Snoopy解析网页html的方法。分享给大家供大家参考。具体实现方法如下： set_time_limit(0); $user = array('20517', '20518'); header("content-Type: text/html; charset=utf-8"); require_once './Snoopy.php'; $snoopy = new Snoopy(); //$uri = 'http://www.juzimi.com/meitumeiju'; $uri = 'http://www.juzimi.com/meitumeiju?page=1'

Snoopy_PHP网页抓取工具

03-30

Snoopy_PHP网页抓取工具 snoopy是一个php类，用来模仿web浏览器的功能，它能完成获取网页内容和发送表单的任务。

Snoopy

Huangwenting1990的博客

07-08

453

Snoopy是什么? Snoopy是一个php类，用来模仿web浏览器的功能，把不仅能完成模拟http请求的页面的抓取，还能完成发送表单的任务。 Snoopy的一些特点: 1抓取网页的内容 fetch 2 抓取网页的文本内容 (去除HTML标签) fetchtext 3抓取网页的链接，表单 fetchlinks fetchform 4 支持代理主机 5支持基本的用户名/

Snoopy PHP

huminghai的专栏

04-21

855

Snoopy PHP网页抓取工具 snoopy是一个php类，用来模仿web浏览器的功能，它能完成获取网页内容和发送表单的任务。 下面是它的一些特征： 1、方便抓取网页的内容 2、方便抓取网页的文字（去掉HTML代码） 3、方便抓取网页的链接 4、支持代理主机 5、支持基本的用户/密码认证模式 6、支持自定义用户agent,referer,cookies和header内容 7、支持浏览器转向，并能控制转向深

php采集类snoopy2.0使用说明