python爬虫（vscode版，借鉴于知乎用户：干饭小熊猫，仅用于自用）

捂一捂啊啊

已于 2023-05-02 21:20:11 修改

阅读量3.2k

点赞数 23

文章标签： python

于 2023-05-02 18:16:41 首次发布

本文链接：https://blog.csdn.net/qq_63075864/article/details/130465443

版权

本文介绍了如何使用Python的requests和beautifulsoup4库进行网页抓取。首先通过pip安装库，接着分析网页的HTTP请求，获取header和cookie。然后利用网页开发者工具找到目标内容的selector，清洗并保存数据到txt文件。整个过程详细解释了网页爬取的基本步骤。

摘要由CSDN通过智能技术生成

一、先下载requests和beautifulsoup4两个库（我是在vscode的终端用pip下载的）

二、获取爬虫的header和cookie

①打开所要爬的网页，点击鼠标右键，然后点击检查

②点击网络选项

③按下ctrl+R刷新界面，在名称中找到想要爬取的文件（一般为第一个）复制为cURL

④然后打开网页Convert curl commands to code，将刚刚复制的内容输入，得到代码

⑤复制进vscode（注意response的网址不要按他给的，自己复制网址放上去）

这里获取的网页没有cookie，有些是有的，如下

三、点开“元素”选项，，点击左上角的箭头方框，然后点击你想要爬的部分网页，在右边找到你想要爬取的那部分内容的代码，复制为selector，然后放入vscode代码的content的变量中，content="#j_isend > div"

四、创建一个文件，存储爬了的内容

fo = open("C:\\Users\\ASUS\\Desktop\\python有关文件\\教你如何爬取网页.txt",'w',encoding="utf-8")
response.encoding='utf-8'

五、清洗数据（soup有网页抓取数据的作用，使拿到的数据为有效数据，而不是编码什么的）

soup = BeautifulSoup(response.text, 'html.parser')
a=soup.select(content)
for i in range(0,len(a)):
a[i] = a[i].text
fo.write(a[i]+'\n')
fo.close()

总代码如下：

import os
import requests
from bs4 import BeautifulSoup
import requests

headers = {
'sec-ch-ua': '"Chromium";v="112", "Microsoft Edge";v="112", "Not:A-Brand";v="99"',
'Referer': 'https://www.docin.com/p-2105164690.html',
'sec-ch-ua-mobile': '?0',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36 Edg/112.0.1722.58',
'sec-ch-ua-platform': '"Windows"',
}

params = {
'rand': '20230427',
}

response = requests.get('https://www.docin.com/p-2105164690.html', params=params, headers=headers)
content="#j_isend > div"
#数据存储
fo = open("C:\\Users\\ASUS\\Desktop\\python有关文件\\教你如何爬取网页.txt",'w',encoding="utf-8")
response.encoding='utf-8'
soup = BeautifulSoup(response.text, 'html.parser')

#清洗数据
a=soup.select(content)
for i in range(0,len(a)):
a[i] = a[i].text
fo.write(a[i]+'\n')
fo.close()