global 只是自己记一下,承认是菜鸡,不许笑
首先,能用到requests库,如果没有,在命令行内用pip命令安装一下
这里我们先说get请求,至于其他的我还没接触到,也不敢写
url="http://www.baidu.com"
r = request.get("url")
demo=r.text
prtint(demo)
这里你会发现,打印出来的demo不好看,怎么办呢,我们可以使用BeautifulSoup4,这还是一个第三方库,还是需要pip命令安装一下
安装完成之后
from bs4 import BeautifulSoup
url="http://www.baidu.com"
r = request.get("url")
demo=r.text
sp = BeautifulSoup("demo","html.parser")
print(sp,prettyfy())
这样打印出来的sp 就是一个标准格式的HTML文件了
现在说下爬取图片
首先,肯定能用到requests,那保存呢,肯定会用到os
import requests #引入这两个库
import os
url="http://imgmini.eastday.com/pushimg/20190414/400x300_1555221081197441.jpg"
#创建根目录,文件路径
root = "D://PACHONG//"
path = root + url.split("/")[-1]
try:
if not os.path.exists(root):
os.mkdir(root)
if not os.path.exists(path):
res = requests.get(url2)
with open(path,"wb") as file:
file.write(res.content)
file.close()
print("抄对了")
else:
print("抄错了")
except:
print("爬取失败了")