Python爬取诗词名句网中三国演义的乱码问题

脑子不好真君

于 2023-10-04 16:14:12 发布

阅读量1k

点赞数 1

分类专栏： Python 文章标签： python 爬虫三国演义

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/naozibuok/article/details/133554600

版权

Python 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

一、乱码问题

为解决中文乱码问题，可使用chardet.detect()检测文本编码格式

详细：

Python爬虫解决中文乱码_脑子不好真君的博客-CSDN博客

二、代码

#爬取三国演义
import requests
import chardet
from bs4 import BeautifulSoup

url='https://www.shicimingju.com/book/sanguoyanyi.html'
headers={
    'User-Agent':
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36 Edg/117.0.2045.47'
}

resp=requests.get(url=url,headers=headers)
encoding=chardet.detect(resp.content)["encoding"]
#print(encoding)
resp.encoding=encoding
page_text=resp.text
#print(page_text)

soup=BeautifulSoup(page_text,'lxml')
li_list=soup.select('.book-mulu > ul > li')
#print(li_list)
fp=open('D:\\Programming\\Microsoft VS Code Data\\WebCrawler\\data\\sanguo\\sanguo.txt',
        'a+',
        encoding=encoding,
        )
for li in li_list:
    title=li.a.string
    zhangjie_url='https://www.shicimingju.com'+li.a['href']
    zhangjie_page=requests.get(url=zhangjie_url,headers=headers)
    encoding=chardet.detect(zhangjie_page.content)['encoding']
    zhangjie_page.encoding=encoding
    #print(encoding)
    zhangjie_page_text=zhangjie_page.text

    zhangjie_soup=BeautifulSoup(zhangjie_page_text,'lxml')
    div_content=zhangjie_soup.find('div',class_='chapter_content')
    content=div_content.text
    fp.write(title+'\n'+content+'\n')
    print(title,'爬取成功!')
fp.close()

脑子不好真君

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Python爬取诗词名句网中三国演义的乱码问题

为解决中文乱码问题，可使用chardet.detect()检测文本编码格式。
复制链接

扫一扫

专栏目录

脑子不好真君 CSDN认证博客专家 CSDN认证企业博客

码龄2年

沈阳工程学院

112: 原创

4万+: 周排名

1万+: 总排名

18万+: 访问

: 等级

2419: 积分

747: 粉丝

1130: 获赞

54: 评论

1703: 收藏

私信

关注

热门文章

分类专栏

机器学习 8篇
Python 10篇
数学 15篇
408 35篇
Linux 4篇
刷题 7篇
Web 12篇
C语言 14篇
实用文 10篇

最新评论

display: flex 和 justify-content: center 强大居中
小王毕业啦: 博主的文章真是让人眼前一亮，不仅解释了display: flex 和 justify-content: center这个主题，更是深入浅出地展现了它们的强大之处。文章中的细节描写让我受益良多，对这个主题也有了全新的认识。可以看出博主对于这个话题有着深厚的功底，让我深深地感受到了博主的专业性和热情。期待博主未来能够持续分享更多这样有价值的好文，同时也希望能够得到博主的指导，共同进步。非常感谢博主的无私分享和支持！
第八章——向量代数与空间解析几何
2401_85851366: 作者整理的很有逻辑，很适合复习的时候看，希望可以继续更🌹🌹🌹
奈氏准则和香农定理
脑子不好真君: 感谢您的阅读。香农公式请见：https://baike.baidu.com/item/%E9%A6%99%E5%86%9C%E5%85%AC%E5%BC%8F/857947 信噪比缩写为SNR或S/R，请见：https://zh.wikipedia.org/wiki/%E4%BF%A1%E5%99%AA%E6%AF%94
奈氏准则和香农定理
2401_83857040: c=s/n吧
第七章——微分方程
2401_85851366: 🌹🌹🌹

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

脑子不好真君 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。