爬虫入门第一天

本文介绍了Python爬虫的基础知识,包括导入urllib库、发送HTTP请求、处理响应内容、编码转换,以及GET和POST请求的区别。此外,还讨论了爬虫的合法性、爬虫的分类,如通用爬虫和聚焦爬虫,并提到了反爬虫技术。
摘要由CSDN通过智能技术生成

爬虫入门第一天—1

import urllib.request

def load_data():
    url = "http://www.baidu.com/"
    # 发送get请求
    # http对应的请求
    # response 是http响应的对象
    response = urllib.request.urlopen(url)
    print(response)
    # 读取内容  bytes类型
    data = response.read()
    print(data)
    # 将文件获取的内容转换成字符串
    str_data = data.decode("utf-8")
    print(str_data)
    # 将数据写入文件
    with open("baidu.html","w",encoding="utf-8") as f:
        f.write(str_data)
    str_name = "baidu"
    bytes_name = str_name.encode("utf-8")
    print(bytes_name)

    # python爬取的数据类型:str bytes
    # 如果爬回来的数据是bytes类型,但是你写入的时候需要字符串 decode("utf-8")
    # 如果爬取的是str类型,但是你要写入bytes类型 encode("utf-8")

load_data()

首先导入urllib库里面的request这个功能  然后定义一个函数。

然后在函数内部进行定义一个url的函数,然后赋值百度的url地址。url地址就是浏览网页的地址,也就是域名,网址。

然后用re

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值