目标地址
知识点梳理:
''''
分析豆瓣图书获取数据及保存的方法
1. 网页分析
1.1 . url 参数 (例 小说) 将其 str 修改为 ASCII 编码
1.2 在 import urllib.request 或 import urllib.parse 导入:
例: key = "小说"
key_ASCII = urllib.request.quote(key)
在 拼接 url 时 传入
1.3 . 观察 page 变化:
首页 :https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=00&type=T
第二页: https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=20&type=T
第三页: https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=40&type=T
......
观察末页为 50 其中 star 的值为 980
由此规律得出 0 开始 50 每次 *20
start="+str(page * 20)+"
2.使用 bs4 解析提取数据
2.1 将网页 html 代码进行数据转换
2.2 利用 谷歌浏览其 copy-copy selectot 找出数据变化规律 (返回的结果类型为列表),
2.3 找出规律变化 ,使用 for 来符合规则 (第一个 ,第二个,最后一个)来观察
2.4 先 for 变量1 in 变量1(可以重复): 使用 get_text() 方法提取文本
2.5 紧随其后 使用 replace()方法 进行数据清洗
2.6 当一个标签下有多个数据时,使用 split() 方法分割 间隔符号
2.7 提取 2.5 (列表中的第 x 个数据,“索引取值”)
——————
使用列表将内容分别加入列表中
此时内容 存入 csv 文件中
3. 保存文件 csv 格式
3.1 一个变量名 来接受 文件保存的路径 将 \ 修改为 / 在加入文件名(例:file_path = "C:/Users/DELL/Desktop/python_wd/文本信息/豆瓣小说.csv")
3.2 with open(file_path,"w",newline="",encoding="utf-8")as f: 其中的 newline 为解决每隔一行在写入内容
3.3 file_value_names = ["书名"