2020版本-爬虫学习-实战练习

最新推荐文章于 2022-08-02 19:54:44 发布

VIP文章 Lyndsey

最新推荐文章于 2022-08-02 19:54:44 发布

阅读量208

点赞数

分类专栏： Python学习相关文章标签：爬虫

本文链接：https://blog.csdn.net/hahameier/article/details/110558398

版权

参考链接：https://www.pythonf.cn/read/67478
在参考文章的基础上，总结了自己遇到的问题和解决方案，以及给代码增加了清晰的注释。

任务说明：

将网站中的段子标题和正文以字典的形式通过json序列化后存储到本地。

遇到的问题：

1、由于网站上普遍都有反爬的设置，老版本的request已经无法使用了。需要使用requests。
2、使用requests就需要获取自己的headers。
3、爬取到的内容打印出来是中文，保存为Json文件到本地后，却是unicode编码字符。

代码展示：

from bs4 import BeautifulSoup
import requests
import json

class Biedoul:
    def __init__(self, url, count):
        self.url = url
        self.count = int(count)
        self.path = r'/Users/NewScenery/SelfLearning-20201203/'  # 存储的路径
        self.headers = {
   "user-agent": "Mozilla/5.0 (Macintosh; Int

最低0.47元/天解锁文章

Lyndsey

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2020版本-爬虫学习-实战练习

参考链接：https://www.pythonf.cn/read/67478在参考文章的基础上，总结了自己遇到的问题和解决方案，以及给代码增加了清晰的注释。任务说明：将网站中的段子标题和正文以字典的形式通过json序列化后存储到本地。遇到的问题：1、由于网站上普遍都有反爬的设置，老版本的request已经无法使用了。需要使用requests。2、使用requests就需要获取自己的headers。3、爬取到的内容打印出来是中文，保存为Json文件到本地后，却是unicode编码字符。代码展示
复制链接

扫一扫