爬虫入门第一天—1
import urllib.request
def load_data():
url = "http://www.baidu.com/"
# 发送get请求
# http对应的请求
# response 是http响应的对象
response = urllib.request.urlopen(url)
print(response)
# 读取内容 bytes类型
data = response.read()
print(data)
# 将文件获取的内容转换成字符串
str_data = data.decode("utf-8")
print(str_data)
# 将数据写入文件
with open("baidu.html","w",encoding="utf-8") as f:
f.write(str_data)
str_name = "baidu"
bytes_name = str_name.encode("utf-8")
print(bytes_name)
# python爬取的数据类型:str bytes
# 如果爬回来的数据是bytes类型,但是你写入的时候需要字符串 decode("utf-8")
# 如果爬取的是str类型,但是你要写入bytes类型 encode("utf-8")
load_data()
首先导入urllib库里面的request这个功能 然后定义一个函数。
然后在函数内部进行定义一个url的函数,然后赋值百度的url地址。url地址就是浏览网页的地址,也就是域名,网址。
然后用re