Go语言核心之美 4.2-递归函数

本文探讨了Go语言中递归函数的概念及其在处理递归数据结构,如HTML解析中的应用。通过使用golang.org/x/net/html包解析HTML,递归函数遍历节点树,提取链接。此外,文章提到了Go语言的递归调用栈的动态扩展特性,避免了栈溢出的问题,并给出了几个递归相关的编程练习。
摘要由CSDN通过智能技术生成

函数是可以递归调用的,这意味着函数可以直接或者间接调用自身。对于一些问题而言,递归是一种非常有用的技术,例如处理递归的数据结构(树形结构),在3.4节中,我们就通过遍历二叉树来实现简单的插入排序,在本节中,将再次使用这种技术来处理HTML文件。

本节后续的示例代码中使用了非标准包golang.org/x/net/html来解析HTML。golang.org/x/...目录下存放了一些由Go语言开发团队设计、维护的包,包含了网络编程、国际化文本处理、移动平台、图像处理、加密解密等,未将这些包加入到标准库的原因有两个:第一个是,有些包还处在开发中,第二个是,对于绝大多数Go语言开发者而言,这些包很少需要被使用。

示例中调用的golang.org/x/net/html的部分api源码如下所示,html.Parse函数读入字节序列并进行解析,然后返回HTML页面树中的节点,节点的类型是html.Node类型。HTML中拥有几种类型的节点:text、comments等等,这里我们只关注<name key='value'>这种形式的节点:

golang.org/x/net/html

package html

type Node struct {
    Type                    NodeType
    Data                    string
    Attr                    []Attribute
    FirstChild, NextSibling *Node
}

type NodeType int32

const (
    ErrorNode NodeType = iota
    TextNode
    DocumentNode
    ElementNode
    CommentNode
    DoctypeNode
)

type Attribute struct {
    Key, Val string
}

func Parse(r io.Reader) (*Node, error)

main函数会解析HTML标准输入,通过递归函数visit获得HTML元素中的链接,并打印出这些链接:

gopl.io/ch5/findlinks1

// Findlinks1 prints the links in an HTML document read from standard input.
package main

import (
    "fmt"
    "os"

    "golang.org/x/net/html"
)

func main() {
    doc, err := html.Parse(os.Stdin)
    if err != nil {
        fmt.Fprintf(os.Stderr, "findlinks1: %v\n", err)
        os.Exit(1)
    }
    for _, link := range visit(nil, doc) {
        fmt.Println(link)
    }
}

visit函数会遍历HTML的节点树,从<a href='...'>类型的元素中获取链接,然后将这些链接存入slice中,并返回该slice:

// visit appends to links each link found in n and returns the result.
func visit(links []string, n *html.Node) []string {
    if n.Type == html.ElementNode && n.Data == "a" {
        for _, a := range n.Attr {
            if a.Key == "href" {
                links = append(links, a.Val)
            }
        }
    }
    for c := n.FirstChild; c != nil; c = c.NextSibling {
        links = visit(links, c)
    }
    return links
}

为了遍历节点n的所有孩子节点,每次遇到n的孩子节点时,visit递归的调用自身。这些孩子结点存放在FirstChild链表中。

让我们以Go的官方主页(golang.org)作为目标,运行findlinks。这里,将使用fetch的输出作为findlinks的输入。注意,下面的输出做了简化处理:

$ go build gopl.io/ch1/fetch
$ go build gopl.io/ch5/findlinks1
$ ./fetch https://golang.org | ./findlinks1
#
/doc/
/pkg/
/help/
/blog/
http://play.golang.org/
//tour.golang.org/
https://golang.org/dl/
//blog.golang.org/
/LICENSE
/doc/tos.html
http://www.google.com/intl/en/policies/privacy/

上面的返回中,存在了多种格式的链接,之后我们会介绍如何生成这些链接的绝对路径(根路径https://golang.org)。

在下面的函数outline中,我们将通过递归的方式遍历整个HTML节点树,并输出树的结构。在outline内部,每遇到一个HTML标签,都将其入栈,然后输出:

gopl.io/ch5/outline

func main() {
    doc, err := html.Parse(os.Stdin)
    if err != nil {
        fmt.Fprintf(os.Stderr, "outline: %v\n", err)
        os.Exit(1)
    }
    outline(nil, doc)
}
func outline(stack []string, n *html.Node) {
    if n.Type == html.ElementNode {
        stack = append(stack, n.Data) // push tag
        fmt.Println(stack)
    }
    for c := n.FirstChild; c != nil; c = c.NextSibling {
        outline(stack, c)
    }
}

有一点需要注意:虽然outline会把元素入栈,但是没有出栈操作。当outline递归调用自身时,被调用者将收到stack的拷贝,虽然被调用者可能会添加元素到该slice中,修改底层的数组,甚至重新分配一个新的数组,但是被调用者不会去修改调用者的传入的slice中的那些元素(也就是说,slice虽然会改变,但是slice中的元素只会增加,不会修改或者删除),因此当函数返回时,调用者的特有的那部分stack还是和调用前相同(后面会增加被调用的stack)。

下面是 https://golang.org 页面的简要结构:

$ go build gopl.io/ch5/outline
$ ./fetch https://golang.org | ./outline
[html]
[html head]
[html head meta]
[html head title]
[html head link]
[html body]
[html body div]
[html body div]
[html body div div]
[html body div div form]
[html body div div form div]
[html body div div form div a]
...

正如上面的实验中展示的,大部分HTML页面只需要几层递归就能被处理完毕,但是仍然有部分页面需要深层次的递归才能完成。

很多编程语言使用固定大小的函数调用栈,常见的大小从64K到2MB不等,这样会限制递归的深度,因此用递归处理大量数据时,需要非常小心栈溢出问题以及安全性问题。与这些语言相反,Go使用的栈的大小是可变的,栈在初始化时会很小,然后按需增长(甚至可以增长到数G大小,取决于你的内存大小),这样我们在使用递归时不需要考虑溢出和安全问题。

练习 5.1: 修改findlinks代码中遍历n.FirstChild链表的部分,将循环调用visit,改成递归调用。

练习 5.2: 编写函数,记录在HTML树中出现的同名元素的次数。

练习 5.3: 编写函数输出所有text结点的内容。注意不要访问<script><style>元素,因为这些元素对浏览者是不可见的。

练习 5.4: 扩展vist函数,使其能够处理其他类型的结点,如images、scripts和style sheets。

递归函数是在函数内部调用自身的一种编程技巧。它是一种简单且强大的算法思维工具,适用于解决许多问题,比如数学问题、字符串问题、树形问题等等。 递归函数通常包括两个部分:基本情况和递归情况。基本情况是指递归函数停止调用自身的条件,也就是递归的出口。递归情况是指递归函数在每次调用自身时所执行的操作。 递归函数的一个重要特点是它可以处理具有无限深度的数据结构,比如树或链表。递归函数可以像深度优先搜索一样遍历整个树或链表,并且可以使用递归函数来解决许多树形问题,比如求树的高度、计算树中节点的个数、求树的直径等等。 递归函数的另一个应用是在排序算法中。比如快速排序就是一种基于递归的排序算法,它利用了递归函数的特性,在每次递归调用中将问题分解成更小的子问题,并且将这些子问题分别排序,最终得到整个序列的有序结果。 虽然递归函数是一种强大的算法思维工具,但是它也有一些缺点。递归函数通常需要更多的内存空间和运行时间,因为每一次递归调用都会在内存中创建一个新的函数栈帧。此外,递归函数可能会导致栈溢出的问题,因为每一次递归调用都会将函数栈帧压入堆栈中,如果递归的深度太大,就会导致堆栈溢出。 因此,在编写递归函数时,需要考虑好递归的出口条件,并且需要测试递归函数的性能和内存使用情况,以确保程序的正确性和可靠性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值