Golang系列:模拟搜索引擎爬虫

最近网站需要针对百度做 SEO 优化,提交代码之后,用 Go 语言写了个程序,模拟百度的爬虫,测试返回的内容是否正确。

代码很简单,就是发送一个请求,把百度相关的信息放入请求头中即可,代码如下:

package main

import (
    "io/ioutil"
    "net/http"
)

func main() {
    // 这里用简化的UA 访问百度自己
    const (
        url = "https://www.baidu.com"
        userAgent = "Mozilla/5.0 Baiduspider/2.0"
    )

    // 创建client 参数为默认
    client := &http.Client{}

    // 创建请求
    req, _ := http.NewRequest("GET", url, nil)

    // 在请求头中添加指定的UA
    req.Header.Add("User-Agent", userAgent)

    // 发起请求并返回结果
    res, _ := client.Do(req)

    // 读取资源数据
    body, _ := ioutil.ReadAll(res.Body)

    // 写入文件
    ioutil.WriteFile("source.txt", body, 0644)

    res.Body.Close()
}

运行完上面的程序,会在当前目录下,生成一个 source.txt 文件,内容即抓取过来的网页源代码。

有时候,我们希望程序在写文件的同时,同步输出到控制台,对于这种场景,可以试试下面这种方式:

package main

import (
    "fmt"
    "io"
    "net/http"
    "os"
)

func main() {
    const (
        url = "https://www.baidu.com"
        userAgent = "Mozilla/5.0 Baiduspider/2.0"
    )

    // 创建client 参数为默认
    client := &http.Client{}

    // 创建请求
    req, _ := http.NewRequest("GET", url, nil)

    // 在请求头中添加指定的UA
    req.Header.Add("User-Agent", userAgent)

    // 发起请求并返回结果
    res, _ := client.Do(req)

    // 获取响应体
    body := res.Body

    // 创建文件 用以保存响应内容
    file, _ := os.Create("source.txt")

    // 创建一个MultiWriter 会同时写到标准输出和操作系统文件
    dest := io.MultiWriter(os.Stdout, file)

    // 将响应内容复制到MultiWriter每个目标 返回总的字节数
    bytes, _ := io.Copy(dest, body)

    // 打印内容总的字节数
    fmt.Println("total bytes:", bytes)

    // 关闭资源
    body.Close()
    file.Close()
}

再次运行程序,文件和控制台将会同步输出内容。

转载于:https://www.cnblogs.com/liuhe688/p/10922881.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值