go-正则匹配超链接

\s  表示: 匹配任意空白字符,等价于 [ \t\n\r\f]

\S 表示: 匹配任意非空字符


var (
	//超链接
	reSuperUrl = `<a[\s\S]+?href="(http[\s\S]+?)"`
    //以<a开头 [\s\S]  \s匹配任意空白字符  \S匹配任意非空字符 +一次到多次 ?当匹配到后边的href的时候停止前面的匹配  
    //()分组  以http开头  匹配非空字符或者空字符任意一种  +一次或者多次  ?匹配到后边的"则停止匹配, 匹配完毕  
    //如果没有?则可能一直向后变匹配下午  贪婪模式
)

func HandleErr(err error, when string)  {
	if err!=nil {
		fmt.Println(when, err)
		os.Exit(1)
	}
}



func main() {
	//爬取超链接
	getSuperLink()
}

func getSuperLink()  {
	html := getHtml("http://www.hao123.com")
	//fmt.Println(html)
	re := regexp.MustCompile(reSuperUrl)
	supers :=  re.FindAllStringSubmatch(html, -1)
	fmt.Println("总共: ", len(supers))
	for _, value := range supers {
		fmt.Println(value[1])
	}
}


func getHtml(url string)(html string)  {
	fmt.Printf("001_正则表达式")
	resp, err := http.Get(url)
	HandleErr(err,`http.Get(s)`)
	bytes, err := ioutil.ReadAll(resp.Body)
	if err!=nil {
		fmt.Println("ioutil.ReadAll err:",err)
	}
	html = string(bytes)
	return
}

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值