PHP第一次采集小记

首先是基本的页面编码设置

 

header("Content-Type: text/html; charset=UTF-8");


链接数据库,为了把采集的数据存放起来避免反复采集

 

这个可以写成一个文件,以后调用,而不是像我这样每个文件里都写。

 

$mysql_server = "localhost";
$mysql_username = "root";
$mysql_password = "123";
$mysql_database = "caiji";
//建立数据库链接
$conn = mysql_connect($mysql_server, $mysql_username, $mysql_password) or die("数据库链接错误");
//选择某个数据库
mysql_select_db($mysql_database, $conn);
//设置数据库链接编码
mysql_query("set names 'utf-8'");
//.....这里是mysql语句
//关闭连接
mysql_close($conn);


采集网页要用到 cURL

 

 

// 1. 初始化
$ch = curl_init();
//2.设置URL和相应的选项
curl_setopt($ch, CURLOPT_URL, $str);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_HEADER, 0);
// 3. 执行并获取HTML文档内容
$output = curl_exec($ch);	
//4. 释放curl句柄
curl_close($ch);

 

说一下字符串存放数据库的时候如果字符创中有' ," ,之类的符号。那么就会引起错误。解决方法就是 :

addslashes() 函数返回在预定义字符之前添加反斜杠的字符串。

然后就是页面运行问题:

//后台运行,永远不超时
ignore_user_abort(true); // 后台运行ignore_user_abort() 函数设置与客户机断开是否会终止脚本的执行。
set_time_limit(0); // 取消脚本运行时间的超时上限,set_time_limit — 设置脚本最大执行时间,默认值为30秒,如果设置为0(零),没有时间方面的限制。

 

正则完的数据带有html标签。这个函数帮你搞定

strip_tags() 函数剥去字符串中的 HTML、XML 以及 PHP 的标签。

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能-肥鹅

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值