一、先下载requests和beautifulsoup4两个库(我是在vscode的终端用pip下载的)
二、获取爬虫的header和cookie
①打开所要爬的网页,点击鼠标右键,然后点击检查
②点击网络选项
③按下ctrl+R刷新界面,在名称中找到想要爬取的文件 (一般为第一个)复制为cURL
④然后打开网页Convert curl commands to code,将刚刚复制的内容输入,得到代码
⑤复制进vscode(注意response的网址不要按他给的,自己复制网址放上去)
这里获取的网页没有cookie,有些是有的,如下
三、点开“元素”选项,,点击左上角的箭头方框,然后点击你想要爬的部分网页,在右边找到你想要爬取的那部分内容的代码,复制为selector,然后放入vscode代码的content的变量中,content="#j_isend > div"
四、创建一个文件,存储爬了的内容
fo = open("C:\\Users\\ASUS\\Desktop\\python有关文件\\教你如何爬取网页.txt",'w',encoding="utf-8")
response.encoding='utf-8'
五、清洗数据(soup有网页抓取数据的作用,使拿到的数据为有效数据,而不是编码什么的)
soup = BeautifulSoup(response.text, 'html.parser')
a=soup.select(content)
for i in range(0,len(a)):
a[i] = a[i].text
fo.write(a[i]+'\n')
fo.close()
总代码如下:
import os
import requests
from bs4 import BeautifulSoup
import requests
headers = {
'sec-ch-ua': '"Chromium";v="112", "Microsoft Edge";v="112", "Not:A-Brand";v="99"',
'Referer': 'https://www.docin.com/p-2105164690.html',
'sec-ch-ua-mobile': '?0',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36 Edg/112.0.1722.58',
'sec-ch-ua-platform': '"Windows"',
}
params = {
'rand': '20230427',
}
response = requests.get('https://www.docin.com/p-2105164690.html', params=params, headers=headers)
content="#j_isend > div"
#数据存储
fo = open("C:\\Users\\ASUS\\Desktop\\python有关文件\\教你如何爬取网页.txt",'w',encoding="utf-8")
response.encoding='utf-8'
soup = BeautifulSoup(response.text, 'html.parser')
#清洗数据
a=soup.select(content)
for i in range(0,len(a)):
a[i] = a[i].text
fo.write(a[i]+'\n')
fo.close()