Goutte: 简单的PHP网页抓取器安装及使用指南-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00681/article/details/141042139

Goutte: 简单的PHP网页抓取器安装及使用指南

GoutteGoutte, a simple PHP Web Scraper项目地址:https://gitcode.com/gh_mirrors/go/Goutte

一、项目介绍

Goutte 是一个用于PHP的屏幕抓取和网络爬虫库，它提供了一个友好的API来爬取网站并从HTML/XML响应中提取数据。这个工具特别适用于那些需要定期更新数据或收集特定类型信息的应用场景。

技术细节

发音: “goot” 类似于英文中的“boot”，而非“out”
基础: Goutte基于以下Symfony组件构建：BrowserKit, CssSelector, DomCrawler 和 HttpClient。
许可协议: Goutte遵循MIT许可协议发布。

注意事项

自版本4起，Goutte实际上已作为对Symfony BrowserKit组件中的HttpBrowser类的一个简单代理而存在。这意味着如果你正在迁移你的代码到最新版Goutte，你需要将Goutte\Client替换为Symfony\Component\BrowserKit\HttpBrowser。

二、项目快速启动

安装步骤

Goutte可以通过Composer进行安装。在命令行中执行以下命令以添加依赖：

composer require fabpot/goutte

确保你的环境满足Goutte的所有要求，包括PHP版本和其他必要的扩展。

快速使用示例

创建一个新的PHP文件（例如：quick_start.php），并在其中加入以下代码，这将会加载一个页面并打印出页面的标题：

<?php
require_once 'vendor/autoload.php';

$client = new \Goutte\Client();
$crawler = $client->request('GET', 'http://example.com');

$title = $crawler->filter('html:contains("title")')->text();

echo $title;

运行上述脚本，你应该能看到Example Domain的标题被打印出来。