使用php简单网页抓取和内容分析,php 模仿蜘蛛抓取内容并分析

最新推荐文章于 2021-03-18 22:02:37 发布

桐本路不高兴

最新推荐文章于 2021-03-18 22:02:37 发布

阅读量212

点赞数

文章标签：使用php简单网页抓取和内容分析

该代码段展示了如何模拟百度和谷歌抓取网页内容。通过file_get_contents和curl方法获取页面，然后使用正则表达式匹配HTML标签，提取title、meta（包括keywords和description）以及body的内容。这段代码对于理解网页抓取和信息解析具有实践意义。

摘要由CSDN通过智能技术生成

这是一款模仿baidu,google抓取你网页时的样子哦，下面就是代码看看吧。

header("Content-Type:text/html;charset=gbk");

$message=$_POST['message'];

$contents = @file_get_contents("$message");

if($contents=="Forbidden"){

$ch = curl_init();

$timeout = 5;

curl_setopt ($ch, CURLOPT_URL, "$message");

curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);

curl_setopt ($ch, CURLOPT_USERAGENT, "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)");

curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT, $timeout);

$contents = curl_exec($ch);

curl_close($ch);

}

preg_match_all("/

/is",$contents,$title);

preg_match_all("//is",$contents,$meta);

preg_match_all("/

/is",$contents,$body);

echo 'title：'.strip_tags($title[0][0]).'
';

for($i=0;$i

if(preg_match("/keywords/i",$meta[0][$i])){

preg_match_all("/content="(.*?)"/is",$meta[0][$i],$keywords);

}

if(preg_match("/description/i",$meta[0][$i])){

preg_match_all("/content="(.*?)"/is",$meta[0][$i],$description);

}

echo 'keywords：'.strip_tags($keywords[1][0]).'
';

echo 'description：'.strip_tags($description[1][0]).'
';

echo 'body：'.strip_tags($body[0][0]);

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

桐本路不高兴

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

PHP模拟baidu蜘蛛抓取网站链接

05-14

PHP模拟baidu蜘蛛抓取网站链接，执行后自动创建一个TXT文本保存抓取的链接。

PHP判断来访是搜索引擎蜘蛛还是普通用户的代码小结

10-23

这主要是为了优化网站性能，防止搜索引擎频繁抓取导致服务器负载过高，或者针对不同的访问者提供不同的内容和服务。以下是一些PHP代码示例，用于判断访问者类型。 **方法一** 是基于关键词匹配的方法，通过检查`$_...

参与评论您还未登录，请先登录后发表或查看评论

php 模拟百度蜘蛛

qq_22385935的博客

11-27

827

$ch2 = curl_init(); $user_agent = "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)";//这里模拟的是百度蜘蛛 curl_setopt($ch2, CURLOPT_URL, $url); curl_...

php 模仿蜘蛛抓取内容并分析

yangbbenyang的专栏

08-07

902

这是一款模仿baidu,google抓取你网页时的样子哦，下面就是代码看看吧。 header("Content-Type:text/html;charset=gbk"); $message=$_POST['message']; $contents = @file_get_contents("$message"); if($contents=="Forbidden"){ $ch = curl_in

php 模拟蜘蛛抓取网页,Spider抓取动态内容（JavaScript指向的页面）

weixin_35775446的博客

03-13

500

PHP新手，在写爬虫练手，一般情况下跟踪链接不是很难，但是如果是动态页面就束手无策了。也许分析协议(但是怎么分析？)，模拟执行JavaScript脚本(怎么弄？)，……另外可能写一个通用的爬取AJAX页面的Spider或许是比较复杂的问题，没有听说或相关开源项目。下面是问题描述：比如一个页面的下一页(ajax函数中有一个得到url对应数据放到content标签部分)：javascript: 下一页...

真假蜘蛛识别php,百度真假蜘蛛IP如何识别？判断百度蜘蛛的鉴别方法

weixin_39531037的博客

03-09

470

很多SEO从业人员在刚刚接触这个行业的时候，经常会问——百度蜘蛛是什么？我们可以理解为百度蜘蛛就是用来抓取网站链接的IP，小编经常会听到百度蜘蛛来的太频繁，服务器要被抓爆了，如果你无法识别百度蜘蛛，你怎么知道是百度蜘蛛抓爆的呢？也有出现百度蜘蛛都不来了的情况，还有很多站点想得到百度蜘蛛的IP段，想把IP加入白名单，但无法识别百度IP。那怎么才能识别正确的百度蜘蛛呢？来来来，只需做着两点，就能正确识...

PHP实例开发源码—葵堆动漫php爬虫程序 php版.zip

最新发布

11-23

网络爬虫，也称为网页蜘蛛或网络机器人，是自动浏览互联网并抓取网页信息的程序。它们通过遵循HTML链接来遍历网页，收集所需的数据，如文本、图片、视频等。在PHP中实现爬虫，通常会用到以下技术： 1. **HTTP请求库...

21行业网 v7.4 PHP MYSQL.rar

07-10

仿百度搜索引擎,仿谷歌搜索引擎软件蜘蛛组件包括三大功能模块：链接采集、网页分析、无效网页扫描；自动识别GB2312、BIG5、UTF-8、Unicode等网页编码；文件类型证察防止非文本类型文件采集；蜘蛛可以采集ASP、PHP、...

21行业网 v6.1 开源版_仿百度搜索引擎(带蜘蛛程序).rar

07-07

仿百度搜索引擎,仿谷歌搜索引擎软件蜘蛛组件包括三大功能模块：链接采集、网页分析、无效网页扫描；自动识别GB2312、BIG5、UTF-8、Unicode等网页编码；文件类型证察防止非文本类型文件采集；蜘蛛可以采集ASP...

蜘蛛程序php,php模仿百度spider蜘蛛爬虫程序例子

weixin_39913472的博客

03-09

592

下面来看一个php模仿百度spider蜘蛛爬虫程序例子,这个代码写得比较高级了我就不分析了,大家有需要的可以进入参考一下吧.自己用PHP写了个爬虫,基本功能已经实现,有兴趣的可以试试脚本缺点:1.未对静态页面进行去重处理,2.未对页面内js操作后的结果进行处理php模仿百度spider蜘蛛爬虫程序例子代码如下:...

仿百度搜索引擎出售了,带蜘蛛 PHP程序

08-14

仿百度搜索引擎出售了,带蜘蛛程序... 相识度99%

解析file_get_contents模仿浏览器头(user_agent)获取数据

12-19

什么是user agentUser Agent中文名为用户代理，简称 UA，它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。网站可以通过判断不同UA来呈现不同的网站，例如手机访问和PC访问显示不同的页面。PHP在用file_get_contents函数采集网站时，有时会明明用浏览器可以看，但就是采不到任何内容。这很有可能是服务器上做了设置，根据 User_agent判断是否为正常的浏览器请求，因为默认PHP的file_get_contents函数是不发送ua的。如果要采集这样的网站，我们就必须要让PHP模拟

php百度谷歌蜘蛛监测

05-14

1.在模板页加入：<?php include('dinmo.php') ?> （互动百科可以加到 dataviewfooter.tpl.php 或加在页尾模板里，其他程序请自己查找模板） 2.上传dinmo.php到根目录 3.有蜘蛛访问以后输入你的网站/dinmo.txt 就可以看到蜘蛛了如果404 就是蜘蛛还没来

利用php抓取蜘蛛爬虫痕迹的示例代码

12-19

前言相信许多的站长、博主可能最关心的无非就是自己网站的收录情况，一般情况下我们可以通过查看空间服务器的日志文件来查看搜索引擎到底爬取了我们哪些个页面，不过，如果用php代码分析web日志中蜘蛛爬虫痕迹，是比较好又比较直观方便操作的！下面是示例代码，有需要的朋友们下面来一起看看吧。示例代码 <?php //获取蜘蛛爬虫名或防采集 function isSpider(){ $bots = array( 'Google' => 'googlebot', 'Baidu' => 'baiduspider', 'Yahoo'

php模仿百度spider蜘蛛爬虫程序例子

04-29

3070

下面来看一个php模仿百度spider蜘蛛爬虫程序例子了，这个代码写得比较高级了我就不分析了，大家有需要的可以进入参考一下吧。自己用PHP写了个爬虫，基本功能已经实现 linux 环境下运行#php spider.php http://www.111cn.net 下面为测试过程图下面为测试结果有兴趣的可以试试脚本缺点： 1.未对静态页面进行去重处理 2.未对页面

Google的蜘蛛模拟器

kozazyh的专栏

07-23

2180

http://www.webconfs.com/search-engine-spider-simulator.php http://www.dead-links.com/

使用PHP实现蜘蛛访问日志统计

vip_linux的专栏

03-05

3660

使用PHP实现蜘蛛访问日志统计的代码。代码：<?php $useragent = addslashes(strtolower($_SERVER['HTTP_USER_AGENT'])); if (strpos($useragent, 'googlebot')!== false){$bot = 'Google';} elseif (strpos($useragent,'mediapart

php模拟蜘蛛访问,如何实现模拟登录？

weixin_42511702的博客

03-18

131

# 如何实现模拟登录？# 如何实现模拟登录？> 通过模拟登录, 可以解决登录后才能爬取某些网站数据的问题.> PHPSpider框架提供两种登录方式：>> > 1、通过发送HTTP请求来实现模拟登录> > 2、从Chrome浏览器拷贝Cookie字符串### 通过发送HTTP请求来实现模拟登录举个栗子:```// 登录请求url$login_url = "...

php判断蜘蛛,php判断搜索引擎蜘蛛爬虫的代码

weixin_35639750的博客

03-12

486

php判断搜索引擎蜘蛛爬虫还是人为访问代码,摘自Discuz x3.2function checkrobot($useragent=''){static $kw_spiders = array('bot', 'crawl', 'spider' ,'slurp', 'sohu-search', 'lycos', 'robozilla');static $kw_browsers = array('ms...

PHP开发：百万级知乎用户数据抓取与分析实践

"本文主要探讨了使用PHP进行百万级别的知乎用户数据抓取与分析的实践过程，涵盖了开发前的准备工作，以及PHP的curl扩展在抓取网页数据中的应用。" 在进行大规模的数据抓取和分析时，PHP作为一款广泛使用的服务器端...