美丽的汤 xlsx格式 csv 格式

最新推荐文章于 2022-09-07 16:02:36 发布

Posierd

最新推荐文章于 2022-09-07 16:02:36 发布

阅读量167

点赞数

分类专栏：知识点总结

本文链接：https://blog.csdn.net/qq_44779863/article/details/105585923

版权

知识点总结专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本文探讨了xlsx和csv两种常见的电子表格格式。xlsx作为Microsoft Excel的默认格式，提供了更丰富的格式和功能，而csv则以其简洁和通用性在数据交换中广泛应用。了解这两种格式的优缺点对于数据处理和分析至关重要。

摘要由CSDN通过智能技术生成

'''
美丽的汤的2种用法

保存数据文件
xlsx 格式文件
csv 文件
'''

from bs4 import BeautifulSoup
'''

根据 class 的属性值 来提取数据
find_all 注意在添加 class 的值是  class 有下划线  class_="属性值"
例：豆瓣top 排行榜的电影信息(目标数据在标签外)    time: 2020-02-21
数据转换   变量 = BeautifulSoup(请求返回.text,'html.parser')

找出最小的父级信息  其包括  name  导演名  ....等  list 数据
在通过 for  遍历  分别去查找 需要的数据
find  提取数据
在获取其电影名称的英文名时（注意这里  find（中文）/   find_all(英文 for )），有些数据可能就没有这个 加个判断   
有些 电影中并无推荐语  加个 try  来解决
查找 url（在html标签内） find（）.find()['urld的健明']



在  “全局”添加一个空的列表  （用于存储保存信息）
当在 for 循环下找出了所有数据
用  全局定义的空列表   来接收全部接收  .append([数据1，数据2，数据3.....])


****将 其 信息保存   .xlsx 中****

调用库
全局
import openpyxl

file = openpyxl.Workbook()   #  建立一个工作薄
sheet = file.active   #  建立工作表
sheet.title = '豆瓣爬虫'   # 命名

sheet['A1'] = '排名',
sheet['B1'] = '电影名',
.....  全部信息的表头..

for 变量2 in  全局的那列表：
    print(’变量2‘)
    sheet.append(变量2)
file.save('保存的路径\豆瓣爬虫.xlsx')


'''


*****************************************************************




'''
美丽的汤  2用法
例：豆瓣电子书 （数据在标签外）  time:   2020-04-05
找到目标数据地址   copy-selector
数据转换 数据转换   变量 = BeautifulSoup(请求返回.text,'html.parser')
不需要找到最小的父级标签

全局 添加
a = []
4 = []
5 = []
......

但。。。
观察第1个 和 最后一个
变化当中的内容的某个值（所选内容的 copy-selector）
for i in range(0,x):
     #   一个数据  a
     
    a = 变量.selector（"所选内容的 copy-selector(+str(i)+)"）  list 数据
    for a in a:
        print(a.get_text().replace("删除不需要的内容","").replace()....) 没有问题后
        a.append(a.get_text().replace("删除不需要的内容","").replace()....)
    
    #  第二个 数据  b  （多个内容 '/' 分割内容 ，需要当中特定的4 5 6 ----有些则只有一个(4)  就判断列表长度最少为4 ）
    b = 变量.selector（"所选内容的 copy-selector(+str(i)+)"）  list 数据
    for b in b:
        b = b.get_text().replace("删除不需要的内容","").replace()....
        特殊变量（只使用一次） = b.split("/")   此时  list 数据
        if  len(特殊变量) >= 4:
            4.append(特殊变量[对应具体索引])
            5.append(特殊变量[对应具体索引])
            6.append(特殊变量[对应具体索引])
        else:
            4.append(特殊变量[对应具体索引])
            5.append("没有数据")
            6.append("没有数据") 
        
    
    
    # 数据  ....
    ....
    
    
    ****保存数据 .csv 格式****
    全局
import csv

file_path = r'路径/豆瓣小说.csv'
with open(file_path,'w',newline="",encoding='uft-8')as f:
    filednames = ['','','','',.....]   与其对应的表头内容
    f_csv = csv.DictWriter(f,filednames=filednames)
    f_csv.writeheader()   写入表头
    
    #  写入行
    for  ? in range(0,len(a)):
        f_csv.writerow(
            {
                "与数据a相关的健明"：a[?],       加了个字典 
                "与数据b相关的健明"：b[?],
                "与数据c相关的健明"：c[?],
                .......
            }
        )

    






'''

Posierd

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
美丽的汤 xlsx格式 csv 格式

'''美丽的汤的2种用法保存数据文件xlsx 格式文件csv 文件'''from bs4 import BeautifulSoup'''根据 class 的属性值来提取数据find_all 注意在添加 class 的值是 class 有下划线 class_="属性值"例：豆瓣top 排行榜的电影信息(目标数据在标签外) time: 2020-02-21数据转...
复制链接

扫一扫

专栏目录