python文章爬取并存为txt文本

最新推荐文章于 2024-02-23 11:58:17 发布

反方向的无奈

最新推荐文章于 2024-02-23 11:58:17 发布

阅读量1.9k

点赞数 1

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/qq_25891967/article/details/115921525

版权

本文介绍了如何使用Python的requests和bs4库爬取网络文章，并将内容保存为TXT文本文件，包括爬取源码的实践和运行结果展示。

摘要由CSDN通过智能技术生成

一、准备工作

安装 requests库和bs4库（已经安装过的可以忽略）

pip install requests

pip install bs4

二、实践爬取源码

# -*- coding: utf-8 -*-
"""
@ description：学习python3.8.5 文章爬取
@ author: chz
@ datetime: 2021-04-20 23：01：47
"""
import os
import io
import sys
import requests
from bs4 import BeautifulSoup
#改变标准输出的默认编码
sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='gb18030')

def urlBS(url):
    headers = {
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'}
    resp = requests