文章采集与网址抓取-正则表达式
1、列表页面地址的填写:
[page]变量代表页码,page数字
2、文章链接的抓取:
href链接网址部分用(.*?)代替
3、文章标题和正文的抓取:
文章标题:一般用(.*?)代替 意思:匹配所有字符(不包括换行符),直到碰到他后面的字符串。
正文: 一般用([\s\S]*?)代替 意思:匹配所有字符(包括换行的)
加了括号的正则表达式,表示参数要提取出来使用。
如果源代码里标题在前,就选标题在前;如果标题在后,就选标题在后。
这里只允许2个加括弧的正则表达式,其它部分也可存在正则表达式,但是不需要提取出来使用,也就不能加括弧了。
标题和正文中间,一般可能存在很多无关代码内容,统一用[\s\S]*,不加括号。无关代码统一用[\s\S]*代替。
原文地址:http://www.seo37.com/934.html