curl

关于curl爬取数据
$curl = curl_init();//初始化curl模块
curl_setopt($curl, CURLOPT_URL, $url);//登录提交的地址
curl_setopt($curl, CURLOPT_HEADER, 0);//是否显示头信息
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);//是否自动显示返回的信息 ,一般都是1
curl_setopt($curl, CURLOPT_POST, 1);//post方式提交
curl_setopt($curl, CURLOPT_POSTFIELDS,$post);//要提交的信息
curl_setopt($curl, CURLOPT_COOKIEJAR, $cookie); //设置Cookie信息保存在指定的文件中
//下面的两个代码解决问题是爬取https网站的
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false );
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false );
$xx = curl_exec($curl);//执行cURL
curl_close($curl);//关闭cURL资源,并且释放系统资源

正则匹配到需要的数据
preg_match_all(‘正则’,‘需要匹配的数据’,‘输出的变量’)
这里输出的变量是个多维数组,根据情况选择需要的数组

模拟登陆,有些网站的一部分信息可能需登陆之后才可以显示
$post = ‘username=这是用户名&password=这是密码’;
$url = “登录页面的网址”;
//设置cookie保存路径
$cookie = dirname(__FILE__) . ‘/cookie_jinhu.txt’; //存储一个cooker文件
//模拟登录
$curl = curl_init();//初始化curl模块
curl_setopt($curl, CURLOPT_URL, $url);//登录提交的地址
curl_setopt($curl, CURLOPT_HEADER, 0);//是否显示头信息
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);//是否自动显示返回的信息
curl_setopt($curl, CURLOPT_COOKIEJAR, $cookie); //设置Cookie信息保存在指定的文件中
curl_setopt($curl, CURLOPT_POST, 1);//post方式提交
curl_setopt($curl, CURLOPT_POSTFIELDS,$post);//要提交的信息
$xx = curl_exec($curl);//执行cURL
curl_close($curl);//关闭cURL资源,并且释放系统资源
代码可能没有多少差别,但是思路是
提交需要登陆的数据,以简单的模式来,,提交username和password用来进行模拟登陆,并把需要的参数存到cookie文件里面以便于执行登陆之后的句柄。curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie);这里要注意,模拟登陆的时候是存cookie文件,读取数据的时候是读取cookie文件。

分页问题,这个问题是特别难解决的问题
首先需要判断这个分页是怎么样实现的,可能是通过网页post一个page参数进行页面跳转,这种是最简单的,直接在post里面传参数进行爬取,还有的是url没有改变只是页面里面的一个table数据发生了变化,这种我没有解决,但是有一个解决方法,就是在给curl爬取到数据注入到新页面的时候设置点击事件进行下一页翻页,有点像模拟手动翻页那样。

转载于:https://www.cnblogs.com/xin521/p/9076979.html

1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合;、下 4载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合;、下载 4使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合;、下载 4使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值