'''
美丽的汤的2种用法
保存数据文件
xlsx 格式文件
csv 文件
'''
from bs4 import BeautifulSoup
'''
根据 class 的属性值 来提取数据
find_all 注意在添加 class 的值是 class 有下划线 class_="属性值"
例:豆瓣top 排行榜的电影信息(目标数据在标签外) time: 2020-02-21
数据转换 变量 = BeautifulSoup(请求返回.text,'html.parser')
找出最小的父级信息 其包括 name 导演名 ....等 list 数据
在通过 for 遍历 分别去查找 需要的数据
find 提取数据
在获取其电影名称的英文名时(注意这里 find(中文)/ find_all(英文 for )),有些数据可能就没有这个 加个判断
有些 电影中并无推荐语 加个 try 来解决
查找 url(在html标签内) find().find()['urld的健明']
在 “全局”添加一个空的列表 (用于存储保存信息)
当在 for 循环下找出了所有数据
用 全局定义的空列表 来接收全部接收 .append([数据1,数据2,数据3.....])
****将 其 信息保存 .xlsx 中****
调用库
全局
import openpyxl
file = openpyxl.Workbook() # 建立一个工作薄
sheet = file.active # 建立工作表
sheet.title = '豆瓣爬虫' # 命名
sheet['A1'] = '排名',
sheet['B1'] = '电影名',
..... 全部信息的表头..
for 变量2 in 全局的那列表:
print(’变量2‘)
sheet.append(变量2)
file.save('保存的路径\豆瓣爬虫.xlsx')
'''
*****************************************************************
'''
美丽的汤 2用法
例:豆瓣电子书 (数据在标签外) time: 2020-04-05
找到目标数据地址 copy-selector
数据转换 数据转换 变量 = BeautifulSoup(请求返回.text,'html.parser')
不需要找到最小的父级标签
全局 添加
a = []
4 = []
5 = []
......
但。。。
观察第1个 和 最后一个
变化当中的内容的某个值(所选内容的 copy-selector)
for i in range(0,x):
# 一个数据 a
a = 变量.selector("所选内容的 copy-selector(+str(i)+)") list 数据
for a in a:
print(a.get_text().replace("删除不需要的内容","").replace()....) 没有问题后
a.append(a.get_text().replace("删除不需要的内容","").replace()....)
# 第二个 数据 b (多个内容 '/' 分割内容 ,需要当中特定的4 5 6 ----有些则只有一个(4) 就判断列表长度最少为4 )
b = 变量.selector("所选内容的 copy-selector(+str(i)+)") list 数据
for b in b:
b = b.get_text().replace("删除不需要的内容","").replace()....
特殊变量(只使用一次) = b.split("/") 此时 list 数据
if len(特殊变量) >= 4:
4.append(特殊变量[对应具体索引])
5.append(特殊变量[对应具体索引])
6.append(特殊变量[对应具体索引])
else:
4.append(特殊变量[对应具体索引])
5.append("没有数据")
6.append("没有数据")
# 数据 ....
....
****保存数据 .csv 格式****
全局
import csv
file_path = r'路径/豆瓣小说.csv'
with open(file_path,'w',newline="",encoding='uft-8')as f:
filednames = ['','','','',.....] 与其对应的表头内容
f_csv = csv.DictWriter(f,filednames=filednames)
f_csv.writeheader() 写入表头
# 写入行
for ? in range(0,len(a)):
f_csv.writerow(
{
"与数据a相关的健明":a[?], 加了个字典
"与数据b相关的健明":b[?],
"与数据c相关的健明":c[?],
.......
}
)
'''
美丽的汤 xlsx格式 csv 格式
最新推荐文章于 2022-09-07 16:02:36 发布
![](https://img-home.csdnimg.cn/images/20240711042549.png)