爬虫入门第一天

最新推荐文章于 2024-05-15 10:08:42 发布

贝多芬的芬

最新推荐文章于 2024-05-15 10:08:42 发布

阅读量244

点赞数

分类专栏： Python 文章标签： Python Python入门爬虫 2019编程语言人生苦短

本文链接：https://blog.csdn.net/qq_39460362/article/details/95231804

版权

本文介绍了Python爬虫的基础知识，包括导入urllib库、发送HTTP请求、处理响应内容、编码转换，以及GET和POST请求的区别。此外，还讨论了爬虫的合法性、爬虫的分类，如通用爬虫和聚焦爬虫，并提到了反爬虫技术。

摘要由CSDN通过智能技术生成

爬虫入门第一天—1

import urllib.request

def load_data():
    url = "http://www.baidu.com/"
    # 发送get请求
    # http对应的请求
    # response 是http响应的对象
    response = urllib.request.urlopen(url)
    print(response)
    # 读取内容  bytes类型
    data = response.read()
    print(data)
    # 将文件获取的内容转换成字符串
    str_data = data.decode("utf-8")
    print(str_data)
    # 将数据写入文件
    with open("baidu.html","w",encoding="utf-8") as f:
        f.write(str_data)
    str_name = "baidu"
    bytes_name = str_name.encode("utf-8")
    print(bytes_name)

    # python爬取的数据类型：str bytes
    # 如果爬回来的数据是bytes类型，但是你写入的时候需要字符串 decode("utf-8")
    # 如果爬取的是str类型，但是你要写入bytes类型 encode("utf-8")

load_data()

首先导入urllib库里面的request这个功能然后定义一个函数。

然后在函数内部进行定义一个url的函数，然后赋值百度的url地址。url地址就是浏览网页的地址，也就是域名，网址。

然后用re