基础知识之采集

1)、采集思路

   从要采集的页面中获取内容--》通过正则匹配要获取的信息--》把数据进行入库操作

注意:文件编码  转码函数iconv()  mb_convert_encoding()(必须先在php.ini中开启mb_string.dll扩展)

2)、数据采集的四种方式

1、file_get_contents();

2、Curl函数

3、Snoopy

4,socket

3)、简单的举个采集页面的案例

采集数据的思路
定义header头
header("content-type:text/html;charset=utf-8");
设置脚本最大执行时间
set_time_limit(0);
设置$url
$url="http://www.sina.com.cn/";
将整个文件读入一个字符串
$str=file_get_contents($url);
字符串按要求的字符编码来转换
$str=iconv('utf-8','utf-8',$str);
定义一个大范围的正则
$reg2='#。。。。#isU';
执行一个正则表达式匹配
preg_match($reg,$str,$arr);
定义一个小范围的正则
$reg2='#。。。。#isU';
执行一个全局正则表达式匹配
preg_match_all($reg2,$arr[0],$data);
定义一个空数组
$array=array();
PDO连接数据库
实例化对象
$pdo=new PDO("mysql:host=127.0.0.1;dbname=test","root","root");
执行编码格式
$pdo->exec("set names utf8");
循环数据放入新数组中然后循环新数组 定义增加的SQL 执行
foreach($array as $k=>$v){
    $title=$v['title'];
    $connect=$v['connect'];
    $sql="insert into news(title,connect) VALUES ('$title','$connect')";
    $pdo->exec($sql);
}
如果要将图片存入本地文件
循环找出图片的SRC
将整个文件读入一个字符串
截取后缀
定义路径和名称
将一个字符串写入文件
如果要入库就把它放入一个字段内
foreach($data[1] as $k=>$v){
$str=file_get_contents($v);
$last=substr($v,strrpos($v,'.'));
$img='./images/'.time().rand(1000,9999).$last;
file_put_contents($img,$str);
$array[$k]['image']=$img;
}
如果要采集的页面是HTTPS加密的那么就要用到CURL
$ch=curl_init();
//初始化
$url="https://www.huxiu.com/startups.html?f=index_nav_article";
//设置路径
curl_setopt($ch, CURLOPT_URL, $url);
//保存变量 需要获取的URL地址一个string类型的值:
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
//将curl_exec()获取的信息以文件流的形式返回,而不是直接输出。  
//绕过ssl保密协议
curl_setopt($ch,CURLOPT_SSL_VERIFYPEER,false);
//禁用后cURL将终止从服务端进行验证。使用CURLOPT_CAINFO选项设置证书使用//CURLOPT_CAPATH选项设置证书目录 如果CURLOPT_SSL_VERIFYPEER(默认值为2)//被启用,CURLOPT_SSL_VERIFYHOST需要被设置成TRUE否则设置为FALSE。
curl_setopt($ch,CURLOPT_SSL_VERIFYHOST,false);
// 1 检查服务器SSL证书中是否存在一个公用名(common name)。译者注:公用名//(Common Name)一般来讲就是填写你将要申请SSL证书的域名 (domain)或子域名//(sub domain)。2 检查公用名是否存在,并且是否与提供的主机名匹配
$str=curl_exec($ch);
执行CURL
curl_close($ch);
关闭CURL
PDO展示查询展示数据
$re=$pdo->query('SELECT * FROM news');
查询数据
$re->setFetchMode(PDO::FETCH_ASSOC);
为语句设置默认的获取模式。 获取为索引数组
$list=$re->fetchAll();
返回一个包含结果集中所有行的数组
然后循环输出数组就好
封装好的一个CURL的类
$cookie_file = tempnam('./temp','cookie');  //创建cookie文件保存的位置
//echo $cookie_file;exit;
function  curl($url,$data=array(),$method,$setcooke=false,$cookie_file=false){
    $ch = curl_init();     //1.初始化
    curl_setopt($ch, CURLOPT_URL, $url); //2.请求地址
    curl_setopt($ch, CURLOPT_CUSTOMREQUEST, $method);//3.请求方式
    //4.参数如下    禁止服务器端的验证
    curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE);
    curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, FALSE);
    //伪装请求来源,绕过防盗
    //curl_setopt($ch,CURLOPT_REFERER,"http://wthrcdn.etouch.cn/");
    //配置curl解压缩方式(默认的压缩方式)
    curl_setopt($ch, CURLOPT_HTTPHEADER, array('Accept-Encoding:gzip'));
    curl_setopt($ch, CURLOPT_ENCODING, "gzip");

    curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:44.0) Gecko/20100101 Firefox/44.0'); //指明以哪种方式进行访问
    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
    curl_setopt($ch, CURLOPT_AUTOREFERER, 1);
    if($method=="POST"){//5.post方式的时候添加数据
        curl_setopt($ch, CURLOPT_POSTFIELDS, $data);
    }
    if($setcooke==true){
        //如果设置要请求的cookie,那么把cookie值保存在指定的文件中
        curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie_file);
    }else{
        //就从文件中读取cookie的信息
        curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_file);
    }
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
    $tmpInfo = curl_exec($ch);

    if (curl_errno($ch)) {
        return curl_error($ch);
    }
    curl_close($ch);
    return $tmpInfo;
}


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值