day2023-3-29-bs4和csv文件操作

最新推荐文章于 2024-10-11 17:30:36 发布

summer--alian

最新推荐文章于 2024-10-11 17:30:36 发布

阅读量220

点赞数

分类专栏：第一阶段爬虫文章标签： python

本文链接：https://blog.csdn.net/DBsummer/article/details/129869114

版权

第一阶段爬虫专栏收录该内容

6 篇文章 0 订阅

订阅专栏

本文介绍了如何使用Python的csv模块进行文件的读写操作，包括reader和writer的使用，以及字典方式处理数据。同时，文章详细讲解了BeautifulSoup4库，利用CSS选择器解析HTML页面，提取所需信息，包括元素选择器、ID选择器、类选择器等。最后，展示了如何结合requests库抓取并解析豆瓣电影Top250的数据。

摘要由CSDN通过智能技术生成

一、csv的读写操作

1.什么是csv文件

csv文件叫做：逗号分割值文件，像excel文件一样以行列的形式保存数据，保存数据的时候同一行的多列数据用逗号隔开。

2. csv文件的读写操作

1）csv文件读操作

from csv import reader, DictReader

a. reader

根据文件对象创建对应的reader，获取文件内容，以列表的方式获取数据

with open('files/电影.csv', encoding='utf-8', newline='') as f:
    r1 = reader(f)
    print(next(r1))
    print(list(r1))

b. DictReader

以字典的方式读取数据

with open('files/电影.csv', encoding='utf-8', newline='') as f:
    r2 = DictReader(f)
    print(next(r2))
    for x in r2:
        print(x)

2）csv文件写操作

from csv import writer, DictWriter

a. writer

根据文件对象创建writer对象，以列表方式写入

with open('files/students.csv', 'w', encoding='utf-8', newline='') as f:
    # 根据文件对象创建writer对象
    w1 = writer(f)

    # 2.写入数据
    # 1）一次写一行
    w1.writerow(['姓名','性别', '年龄'])
    w1.writerow(['lisa', '女', 22])

	# 2）一次写多行
    w1.writerows([
        ['lisa', '女', 22],
        ['lily', '女', 23]
    ])

b. DictWriter

以字典方式写入

with open('files/students2.csv', 'w', encoding='utf-8', newline='') as f:
    # 1.根据文件对象创建writer对象
    w2 = DictWriter(f, ['姓名','性别', '年龄'])

	# 2.写入数据
    w2.writeheader()
    w2.writerow({'姓名':'lisa', '性别':'女', '年龄':22 })
    w2.writerows([
        {'姓名': 'lisa', '性别': '女', '年龄': 22},
        {'姓名': 'lily', '性别': '女', '年龄': 23},
        {'姓名': 'jenny', '性别': '女', '年龄': 20}
    ])

二、`bs4 (beautifulsoup4)`

bs4(beautifulsoup4)是基于css选择器的网页解析器

css语法：
 选择器{属性名1: 属性值2; 属性名2: 属性值2; ....}
 
 常见属性：color(设置字体颜色)、 background-color(背景颜色)、font-size(字体大小)、width(宽度)、height(高度)、border(边框)
 
 选择器：
 1. 元素选择器(标签选择器) - 将标签作为选择器，选中所有指定的标签
 a{}  -  选中所有的a标签
 p{}  -  选中所有的p标签
 span{}    -  选中所有的span标签
 
 2. id选择器   - 在标签的id属性前加#作为一个选择器，选中id属性值为指定值的标签
 注意：一个网页中id属性值是唯一的
 #a{}   - 选中id属性值为a的标签
 #b1{} -  选中id属性值为b1的标签
 
 3. class选择器   -  在标签的class属性前加.作为一个选择器，选中所有class属性值为指定值的标签
 注意：一个网页中多个标签的class属性值可以相同；同一个标签可以有多个不同的class
     只有一个class属性值标签的写法：<标签名 class="c1">
     有多个class属性值标签的写法：<标签名 class="c1 c2 c3">
     
 .a{}  -  选中class属性值为a标签
 .c1{} -  选中class属性值为c1的标签
 .a.b{}    -  选中class属性值同时为a和b标签
 a.c1{}    -  选中所有class值为c1的a标签
 
 4. 子代选择器  -  将两个选择器用>连接成一个选择器（前后形成父子关系）
 div>a{}   -  选中所有在div标签中的a标签（a标签必须是div的子标签）
 
 5. 后代选择器  -  将两个选择器用空格连接成一个选择器(前后形成后代关系）
 div a{}   -  选中所有在div标签中的a标签（a标签必须是div的后代标签）

注意：安装的时候装的是beautifulsoup4，使用的时候用bs4

from bs4 import BeautifulSoup

1.根据网页源代码创建soup对象:BeautifulSoup(网页源代码, ‘lxml’)

f = open('files/data.html', encoding='utf-8')
soup = BeautifulSoup(f.read(), 'lxml')
f.close()

2.获取标签

soup对象.select(css选择器) —— 获取整个网页中选择器选中的所有标签，返回值是一个列表，列表中的元素是标签对象（找不到返回空列表）

soup对象.select_one(css选择器) —— 获取整个网页中选择器选中的第一个标签，返回值是标签对象（找不到返回None）

标签对象.select(css选择器) —— 获取指定标签中css选择器选中的所有标签

标签对象.select_one(css选择器) —— 获取指定标签中css选择器选中的第一个标签

result = soup.select('p')
print(result)

result = soup.select('.c1')
print(result)

result = soup.select_one('p')
print(result)

result = soup.select('div p')
print(result)

box1 = soup.select_one('#box1')
result = box1.select('p')
print(result)

p1 = soup.select_one('span>p')
a1 = box1.select_one('a')

3.获取标签内容和标签属性

标签对象.text  ——  获取标签内容

标签对象.attrs[属性名]  ——  获取标签指定属性的值

print(p1.text)     # 我是段落5
print(a1.text)     # 我是超链接3
print(a1.attrs['href'])    # https://www.baidu.com

三、应用：bs4豆瓣

import requests
from bs4 import BeautifulSoup

1.获取网页源代码

url = f'https://movie.douban.com/top250?start=0&filter='
headers = {
    'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36'
}
response = requests.get(url, headers=headers)
html = response.text

2.解析数据

soup = BeautifulSoup(html, 'lxml')

# 获取每个电影对应的div
div_list = soup.select('.grid_view>li>div')
for x in div_list:
    name = x.select_one('.title').text
    score = x.select_one('.rating_num').text
    comment = x.select_one('.star>span')[-1].text[:-3]