豆瓣电子书知识点梳理

最新推荐文章于 2023-10-12 11:09:14 发布

Posierd

最新推荐文章于 2023-10-12 11:09:14 发布

阅读量185

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/qq_44779863/article/details/104964832

版权

目标地址

知识点梳理：

''''
分析豆瓣图书获取数据及保存的方法
1.  网页分析
1.1 . url 参数 （例 小说）  将其 str 修改为  ASCII 编码
1.2   在  import urllib.request  或   import urllib.parse  导入：
        例： key = "小说"
             key_ASCII = urllib.request.quote(key)
             在  拼接 url 时 传入

1.3 . 观察 page 变化：
        首页 ：https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=00&type=T
        第二页： https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=20&type=T
        第三页： https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=40&type=T
        ......
        观察末页为 50   其中 star 的值为  980
         由此规律得出  0 开始 50   每次 *20
         start="+str(page * 20)+"

2.使用 bs4  解析提取数据
2.1  将网页 html 代码进行数据转换
2.2  利用 谷歌浏览其  copy-copy selectot 找出数据变化规律 （返回的结果类型为列表），
2.3  找出规律变化 ，使用 for 来符合规则  （第一个  ，第二个，最后一个）来观察
2.4  先 for 变量1 in  变量1（可以重复）：   使用 get_text() 方法提取文本
2.5  紧随其后 使用 replace（）方法 进行数据清洗
2.6  当一个标签下有多个数据时，使用 split（）  方法分割 间隔符号
2.7  提取 2.5  （列表中的第 x 个数据，“索引取值”）


——————
使用列表将内容分别加入列表中
此时内容 存入 csv  文件中

3.  保存文件 csv 格式
3.1  一个变量名 来接受 文件保存的路径  将 \ 修改为  /  在加入文件名（例：file_path = "C:/Users/DELL/Desktop/python_wd/文本信息/豆瓣小说.csv"）
3.2  with open(file_path,"w",newline="",encoding="utf-8")as f: 其中的  newline  为解决每隔一行在写入内容
3.3  file_value_names = ["书名"

最低0.47元/天解锁文章

Posierd

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
豆瓣电子书知识点梳理

目标地址知识点梳理：''''分析豆瓣图书获取数据及保存的方法1. 网页分析1.1 . url 参数（例小说）将其 str 修改为 ASCII 编码1.2 在 import urllib.request 或 import urllib.parse 导入：例： key = "小说" key_ASCII = urllib....
复制链接

扫一扫