php爬虫

本文介绍了如何使用PHP编写一个爬虫,从指定网站抓取成语图片和答案,存储到数据库。接着实现猜成语功能,包括添加干扰字、打乱顺序,以及前端页面布局、样式和JavaScript交互。最后,展示了程序的用户体验和实际运行效果。
摘要由CSDN通过智能技术生成

   Php爬虫,爬取数据,识图猜成语

一、寻找数据

1,寻找相关网站数据

http://www.hydcd.com/cy/fkccy/index.htm

分析网站换页特性

分析得出除了第一页,第二页开始index加页面数

 

写一个函数,专门拼接需要访问的页面

public function getcy($id=3,$num=3){
    $i=$id;
    $num=$i+$num;
    for($i;$i<$num;$i++){
        $url="http://www.hydcd.com/cy/fkccy/index".$i.".htm";
      $this->pacy($url);
        echo "第".$i."个已完成";
    }
}

 

第一个参数为起始页,第二个为爬取的页数

 

二、使用正则筛选出需要的数据并存入数据库

所有数据都是这种格式,所以正则可以这么写

$regex = "/<td width=\"170\" height=\"210\">(.*?)<\/td>/";

 

进一步筛选出图片和正确答案

 

preg_match("/<img border=\"0\" src=\"(.*?)\" alt=\"(.*?)\">/",$v,$con)

 

这时$con[1]就是图片路径,$con[2]就是正确答案

 

因为图片是相对路径,我们还要拼接成可以在浏览器访问的路径

这样即可:

$con[1]="http://www.hydcd.com/cy/fkccy/".$con[1];

 

把网络图片下载到本地,并把他们存入数据库

 

下面函数是传网络图片路径,下载到本地文件夹的方法。


                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值