Requests
使用Requests这个http请求库
requests.get('网址')#爬目标网址
print('网页的状态码为%s'%re.status_code)
with open('文件名', 'w') as file:
file.write(re.text) ## 将数据的字符串形式写入文件中
re.text##文本内容的获取、下载;
re.content##图片、视频、音频等内容的获取、下载;
re.encoding ##爬取内容的编码形式,常见的编码方式有 ASCII、GBK、UTF-8 等。如果用和文件编码不同的方式去解码,我们就会得到一些乱码。
HTML解析和提取
使用BeautifulSoup库
import io
import sys
import requests
from bs4 import BeautifulSoup #载入库