美丽的汤 xlsx格式 csv 格式

本文探讨了xlsx和csv两种常见的电子表格格式。xlsx作为Microsoft Excel的默认格式,提供了更丰富的格式和功能,而csv则以其简洁和通用性在数据交换中广泛应用。了解这两种格式的优缺点对于数据处理和分析至关重要。
摘要由CSDN通过智能技术生成
'''
美丽的汤的2种用法

保存数据文件
xlsx 格式文件
csv 文件
'''

from bs4 import BeautifulSoup
'''

根据 class 的属性值 来提取数据
find_all 注意在添加 class 的值是  class 有下划线  class_="属性值"
例:豆瓣top 排行榜的电影信息(目标数据在标签外)    time: 2020-02-21
数据转换   变量 = BeautifulSoup(请求返回.text,'html.parser')

找出最小的父级信息  其包括  name  导演名  ....等  list 数据
在通过 for  遍历  分别去查找 需要的数据
find  提取数据
在获取其电影名称的英文名时(注意这里  find(中文)/   find_all(英文 for )),有些数据可能就没有这个 加个判断   
有些 电影中并无推荐语  加个 try  来解决
查找 url(在html标签内) find().find()['urld的健明']



在  “全局”添加一个空的列表  (用于存储保存信息)
当在 for 循环下找出了所有数据
用  全局定义的空列表   来接收全部接收  .append([数据1,数据2,数据3.....])


****将 其 信息保存   .xlsx 中****

调用库
全局
import openpyxl

file = openpyxl.Workbook()   #  建立一个工作薄
sheet = file.active   #  建立工作表
sheet.title = '豆瓣爬虫'   # 命名

sheet['A1'] = '排名',
sheet['B1'] = '电影名',
.....  全部信息的表头..

for 变量2 in  全局的那列表:
    print(’变量2‘)
    sheet.append(变量2)
file.save('保存的路径\豆瓣爬虫.xlsx')


'''


*****************************************************************




'''
美丽的汤  2用法
例:豆瓣电子书 (数据在标签外)  time:   2020-04-05
找到目标数据地址   copy-selector
数据转换 数据转换   变量 = BeautifulSoup(请求返回.text,'html.parser')
不需要找到最小的父级标签

全局 添加
a = []
4 = []
5 = []
......

但。。。
观察第1个 和 最后一个
变化当中的内容的某个值(所选内容的 copy-selector)
for i in range(0,x):
     #   一个数据  a
     
    a = 变量.selector("所选内容的 copy-selector(+str(i)+)")  list 数据
    for a in a:
        print(a.get_text().replace("删除不需要的内容","").replace()....) 没有问题后
        a.append(a.get_text().replace("删除不需要的内容","").replace()....)
    
    #  第二个 数据  b  (多个内容 '/' 分割内容 ,需要当中特定的4 5 6 ----有些则只有一个(4)  就判断列表长度最少为4 )
    b = 变量.selector("所选内容的 copy-selector(+str(i)+)")  list 数据
    for b in b:
        b = b.get_text().replace("删除不需要的内容","").replace()....
        特殊变量(只使用一次) = b.split("/")   此时  list 数据
        if  len(特殊变量) >= 4:
            4.append(特殊变量[对应具体索引])
            5.append(特殊变量[对应具体索引])
            6.append(特殊变量[对应具体索引])
        else:
            4.append(特殊变量[对应具体索引])
            5.append("没有数据")
            6.append("没有数据") 
        
    
    
    # 数据  ....
    ....
    
    
    ****保存数据 .csv 格式****
    全局
import csv

file_path = r'路径/豆瓣小说.csv'
with open(file_path,'w',newline="",encoding='uft-8')as f:
    filednames = ['','','','',.....]   与其对应的表头内容
    f_csv = csv.DictWriter(f,filednames=filednames)
    f_csv.writeheader()   写入表头
    
    #  写入行
    for  ? in range(0,len(a)):
        f_csv.writerow(
            {
                "与数据a相关的健明":a[?],       加了个字典 
                "与数据b相关的健明":b[?],
                "与数据c相关的健明":c[?],
                .......
            }
        )

    






'''



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值