文章采集与网址抓取-正则表达式

 文章采集与网址抓取-正则表达式

  1、列表页面地址的填写:

  [page]变量代表页码,page数字

  2、文章链接的抓取:

  href链接网址部分用(.*?)代替

  3、文章标题和正文的抓取:

  文章标题:一般用(.*?)代替 意思:匹配所有字符(不包括换行符),直到碰到他后面的字符串。

  正文: 一般用([\s\S]*?)代替 意思:匹配所有字符(包括换行的)

  加了括号的正则表达式,表示参数要提取出来使用。

  如果源代码里标题在前,就选标题在前;如果标题在后,就选标题在后。

  这里只允许2个加括弧的正则表达式,其它部分也可存在正则表达式,但是不需要提取出来使用,也就不能加括弧了。

  标题和正文中间,一般可能存在很多无关代码内容,统一用[\s\S]*,不加括号。无关代码统一用[\s\S]*代替。


原文地址:http://www.seo37.com/934.html


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值