php截取新闻内容,同时提取多条新闻中的文本一例

本文介绍了一个Python程序,它能从人民网'今日要闻'页面抓取并整理新闻内容,以标题为文件名保存到文本文件中。作者提供了详细的过程和示例URL,展示了如何处理网页结构,提取关键信息如标题、日期、正文等。
摘要由CSDN通过智能技术生成

同时提取多条新闻中的文本一例

更新时间:2006年10月09日 00:00:00   作者:

本文为一个提取一批新闻网页中的文本的小程序,它可以将各篇新闻的内容存为以该新闻标题为文件名的文本文件。如有更好的处理方法,请和我联系:

lwx3069@sina.com

这里以人民网中的“今日要闻”下的新闻为例.

($url) ? "" : $url = "http://www.unn.com.cn/GB/channel2/3/11/index.html";        // 今日要闻

if(isset($url)&&$url!="")        {

$str = implode("",file($url));

$str_ary = explode("

  • ",$str);

$str_ary = explode("

",trim($str_ary[1]));

for ($i=0; $i<8; $i++)        {

if (strlen(trim($str_ary[$i]))<3){

continue;

}

echo "新闻".$i.":".$str_ary[$i];

$str1=strstr("$str_ary[$i]",'

$len1=strlen("$str1");

$len2=strlen("$str2");

$len=$len1-$len2;

$url=substr("$str1",10,$len-10);

if (strlen(trim($url))!=0) {

$url = "http://www.unn.com.cn/".$url;

define(CONTENTS_DIR,"./contents/");

if(isset($url)&&$url!="")        {

$str = implode("",file($url));

$str1=explode('

',$str2[0]);   //取出日期和时间

$str5=explode('',$str3[1]);     //从标题和正文部分取出标题

$title=str_replace("
","",$str5[0]);

$str3=explode('

',$str2[0]);          //从整个有用部分取出文件正文

$str3[1]=str_replace('
    ',"\n"."  ",$str3[1]);

$str3[1]=str_replace(' ',"",$str3[1]);

$str3=strip_tags($str3[1]);

$pf=trim($title).".txt";

$ppf=fopen(CONTENTS_DIR."$pf",'w');

fputs($ppf,$title);

fputs($ppf,"$str4[0]");

fputs($ppf,$str3);

}

}

}

}

?>

相关文章

1a1b05c64693fbf380aa1344a7812747.png

PHP 5 数据对象 (PDO) 抽象层与 Oracle...2006-10-10

4f55910a645b073bc4fc65dc10dc14bd.png

我们上面说过面向对象程序的单位就是对象,但对象又是通过类的实例化出来的,既然我们类会声明了,下一步就是实例化对象了。2009-09-09

0ea3c7666119d5615e582f823fb3fad6.png

今天小编就为大家分享一篇关于PHP的PDO错误与错误处理,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧2019-01-01

4f96a78db829b1556ff16de21e013c7a.png

在PHP5类中继续使用cons修饰常量。我们使用const定义一个常量,定义的这个常量不能被改变。2010-05-05

8cc1031babc6aff2319f1c6af8544aa0.png

PHP编程与应用...2006-10-10

0c932a99bb7b6f23c937db507070cc7b.png

总结了一个UTF-8的编码规则,根据这个编码规则,写一个UTF-8编码的解析程序,以下是PHP的实现,需要的朋友可以参考下2012-11-11

cca732bf65a93ed2ec0ac80c638460fe.png

PHP新手上路(十二)...2006-10-10

2d9f31f2af7b675a3d153d2b7f1035a7.png

杏林同学录(一)...2006-10-10

b452cee8ec5cd9e58ab98eba17281e59.png

PHP调用三种数据库的方法(1)...2006-10-10

f4838ec7e2d4da28e0b57d4e852dadd4.png

使用网络地址转换实现多服务器负载均衡...2006-10-10

最新评论

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值