今天第一次写php爬虫,感觉还可以。以前我一直都想用php做爬虫了。但是因为不会使用正则表达式,所以也就一直下不起手来。今天终于下定决心去学正则,所以做爬虫的热情又回来了。
首先,我是使用file_put_content()函数来将所要爬取的网页下载下来,然后再使用正则来匹配我们想要的数据。具体的步骤如下:
(1)去优酷的动画网站找到url复制。
//url链接数组
$Link = [
'http://comic.youku.com/?spm=a2hww.20023042.topNav.5~1~3!19~A',//动漫首页
'http://list.youku.com/category/show/c_100_s_1_d_2.html?spm=a2hcm.20010061.nav-second.5~1~3!7~A'//全部动漫
];
(2)然后使用curl来进行网络的数据请求
//创建一个新curl资源
$cl = curl_init();
// 设置URL和相应的选项
curl_setopt($cl,CURLOPT_URL,$Link[1]);
curl_setopt($cl,CU