php页面采集正则,php 文章采集正则代码

最新推荐文章于 2021-04-08 06:45:03 发布

weixin_39636850

最新推荐文章于 2021-04-08 06:45:03 发布

阅读量85

点赞数

云计算大数据数据分析数字化转型安全挑战

关键词由CSDN通过智能技术生成

//采集html

function getwebcontent($url){

$ch = curl_init();

$timeout = 10;

curl_setopt($ch, CURLOPT_URL, $url);

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);

curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1);

$contents = trim(curl_exec($ch));

curl_close($ch);

return $contents;

}

//获得标题和url

$string =

getwebcontent('http://www.***.com/learn/zhunbeihuaiyun/jijibeiyun/2');

//正则匹配

获取标题和地址

preg_match_all ("/

(.*)/",$string, $out, PREG_SET_ORDER);

foreach($out as $key => $value){

$article['title'][] = $out[$key][2];

$article['link'][] = "http://www.***.com/learn/article/".$out[$key][1];

}

//根据url获取文章内容

foreach($article['link'] as $key=>$value){

$content_html = getwebcontent($article['link'][$key]);

preg_match("/

[\s|\S]*?/",$content_html,$matches);

$article[content][$key] = $matches[0];

}

//不转码还真不能保存成文件

foreach($article[title] as $key=>$value){

$article[title][$key] = iconv('utf-8', 'gbk', $value);//转码

}

//存入文件

$num = count($article['title']);

for($i=0; $i

file_put_contents("{$article[title][$i]}.txt", $article['content'][$i]);

}

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39636850

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

php 文章采集正则代码

01-20

复制代码代码如下: //采集html function getwebcontent($url){ $ch = curl_init(); $timeout = 10; curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout); curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1); $contents = trim(curl_exec($ch)); cu

PHP simple_html_dom.php+正则采集文章代码

12-17

此代码段提供了一种基本的网页采集方法，但还有优化空间，尤其是正则表达式部分，用于提取文章内容的正则可能过于简单，对于复杂结构的HTML页面可能无法准确匹配。在实际应用中，可能需要根据具体网页结构进行调整，...

参与评论您还未登录，请先登录后发表或查看评论

php题目采集解析,PHP_解析php利用正则表达式解决采集内容排版的问题，做采集经常遇到的问题是内容...

weixin_28933027的博客

03-10

123

做采集经常遇到的问题是内容排版问题，用了一些时间写了个用正则替换html标签和样式的函数，共享下。/*** 格式化内容* @param string $content 内容最好统一用utf-8编码* @return string* !本函数需要开启tidy扩展*/function removeFormat($content) {$replaces = array ("//i" => '',"...

PHP怎么做采集文章的代码

Dozz

03-17

963

PHP采集文章的代码实例，支持正则表达式设置从开始到结束区域，代码如下： function preg_substr($start, $end, $str) // 正则截取函数 { $temp = preg_split($start, $str); $content = preg_split($end, $temp[1]);

php远程采集代码,php采集远程文章简单类

weixin_39935092的博客

03-11

php页面采集正则,PHP simple_html_dom.php+正则采集文章代码

weixin_42250528的博客

03-10

//包含PHP Simple html Dom 类库文件include_once('./simplehtmldom/simple_html_dom.php');//采集htmlfunction getwebcontent($url){$ch = curl_init();$timeout = 10;curl_setopt($ch, CURLOPT_URL, $url);curl_setopt($ch...

解析php利用正则表达式解决采集内容排版的问题

10-27

文章标题指出了本文的核心内容是“利用正则表达式解决PHP采集内容排版问题”。在实际网络爬虫开发过程中，获取网页内容后，往往需要对内容进行整理和格式化，以适应后续的数据处理需求。正则表达式作为一种强大的...

php 文章采集源码,php文章采集

weixin_30562757的博客

04-08

287

自家用的 php 采集程序呵呆把它拿出来吧 php采集代码,php 采集器 ,必一下就可能变成php论坛采集程序,自动采集程序 php php采集原理是读取远程文章的内容然后正我们想要用东西,set_time_limit(0); //设置文档永不过期$url =$_POST["url"];//URL$start =$_POST["start"];//开始$end =$_POST["...

phpcms采集正则快速测试页代码

我的笔记

03-28

1107

这下面用到是自己的模块控制器来弄的,也可以做成一个独立的页面;/* * 临时使用功能文件 * 用于快速测试采集正则编写正确性 * 访问地址 http://cms.chinahrd.net/index.php?m=chrd&c=reg_test */defined('IN_PHPCMS') or exit('No permission resources.');pc_base::load_app_c

php采集文章中的图片获取替换到本地(实现代码)

12-18

复制代码代码如下:/** * 获取替换文章中的图片路径 * @param string $xstr 内容 * @param string $keyword 创建照片的文件名 * @param string $oriweb 网址 * @return string * */function replaceimg($xstr,$keyword, $oriweb){ //保存路径 $d = date(‘Ymd’, time()); $dirslsitss = ‘/var/www/weblist/uploads/’.$keyword.’/’.$d;//分类是否存在 if(!

PHP+fiddler抓包采集微信文章阅读数点赞数的思路详解

10-15

主要介绍了PHP+fiddler抓包采集微信文章阅读数点赞数的思路，非常不错，具有一定的参考借鉴价值,需要的朋友可以参考下

php正则表达式 chm,10个实用的PHP正则表达式汇总

weixin_42356958的博客

03-09

216

本文实例讲述了10个实用的PHP正则表达式汇总，分享给大家供大家参考。具体如下：正则表达式是程序开发中一个重要的元素，它提供用来描述或匹配文本的字符串，如特定的字符、词或算式等。但在某些情况下，用正则表达式去验证一个字符串比较复杂和费时。本文为你介绍10种常见的实用PHP正则表达式的写法，希望对你的工作有所帮助。1. 验证E-mail地址这是一个用于验证电子邮件的正则表达式。但它并不是高效、完美的...

php 正则截取文章图片

weixin_30666753的博客

01-31

187

preg_match ("<img.*src=[\"](.*?)[\"].*?>",$test,$match); //获取图片 echo $match[1]; //输出路径转载于:https://www.cnblogs.com/fan-bk/p/8392755.html

php正则获取全部图片,PHP通过正则表达式获取网页中的所有图片

weixin_31925495的博客

03-10

1297

php用正则表达式获取所有的图片，一下上代码$url=”http://sports.qq.com/photo/?pgv_ref=aio”;//file_get_contents() 函数把整个文件读入一个字符串中$string=file_get_contents($url);//preg_match_all函数进行全局正则表达式匹配。$param1 = “/]*)\s*src=(‘|\”)([^’...

curl最全的方法

enjoy_sun_moon的博客

01-15

675

*微信公众号抓取数据,PHP中进行post提交 * curl 支持post * @param string $base_url 基础链接 * @param array $query_data 需要请求的数据 * @param string $method 方法 get/post * @param boolean $ssl 关闭ssl验证 * @param integer $exe_...

PHP正则获取文章中第一张图片为封面

weixin_30279751的博客

06-15

281

$pattern="/<[img|IMG].*?src=[\'|\"](.*?(?:[\.gif|\.jpg|\.png]))[\'|\"].*?[\/]?>/"; preg_match_all($pattern,$data['content'],$matchContent); if(isset($matchContent[1][0])){ $data['cov...

PHP-文章简单采集

YangJack-前端开发

02-16

3672

以下是在wamp环境下PHP利用文件操作，获取url，达到文章采集效果<?php //文章采集方法一 /* $res = fopen("http://www.huanqiu.com/","r"); $data =''; while($strcon = fgets($res)){ $data .= $strcon; } fclose($res)

PHP初学者的网页采集程序

"这篇文档介绍了一个初级的PHP采集程序，由作者9elong编写，主要用于学习PHP，能够采集单页面的图片。程序包含了获取图片的函数getimg，该函数使用正则表达式匹配网页中的图片URL，并对特定格式的图片地址进行处理。...