【爬虫】csv文件写入和读取

Fx_x

已于 2022-11-03 17:23:01 修改

阅读量2.7k

点赞数 2

分类专栏：爬虫文章标签：爬虫 python

于 2022-11-02 15:07:10 首次发布

本文链接：https://blog.csdn.net/Fx_2003/article/details/127640841

版权

爬虫专栏收录该内容

8 篇文章 0 订阅

订阅专栏

文章目录

总结：

本文以一个爬虫小案例讲述怎么把爬取到的文本内容写入本地

介绍了csv 模块

前言大纲：

通过一个爬虫小案例：爬取文章标题讲述怎么写入csv文件

1、目的：爬取标题

虎扑获取主页标题 url = 'https://bbs.hupu.com/'

通过审查元素F12 我们可以知道标题都在

span标签下的class="t-title"下

2、代码如下

# -*- coding: utf-8 -*-
"""
@File  : _thread多线程.py
@author: FxDr
@Time  : 2022/10/16 19:43
"""

from bs4 import BeautifulSoup
import requests


def hupu():
    li = []
    # 虎扑 获取主页标题
    url = 'https://bbs.hupu.com/'
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36 Edg/106.0.1370.42'
    }
    req = requests.get(url, headers=headers).content.decode('utf-8')
    soup = BeautifulSoup(req, 'lxml')
    # print(soup.prettify()) 美化输出
    p = soup.find_all('span', class_='t-title')

    for each in p:
        # print(each.text)
        li1 = [each.text]
        li.append(li1)
    return li


print(hupu())

输出：

3、写入txt文本

# -*- coding: utf-8 -*-
"""
@File  : threading多线程.py
@author: FxDr
@Time  : 2022/10/16 20:01
"""

from bs4 import BeautifulSoup
import requests


def hupuDown():
    # 虎扑 获取主页标题
    url = 'https://bbs.hupu.com/history/'
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36 Edg/106.0.1370.42'
    }
    req = requests.get(url, headers=headers).content.decode('utf-8')
    soup = BeautifulSoup(req, 'lxml')
    # print(soup.prettify())
    p = soup.find_all('a', class_='p-title')
    # print(p)
    for each in p:
        print(each.text)
        with open('虎扑.txt', 'a+') as f:
            f.writelines(each.text)
            f.writelines('\n')

如下：

4、csv模块

import csv

1、csv写入

1）csv 写入列表

一个小例子:

writerow():单行写入，将一个列表全部写入csv的同一行
writerows（）：多行写入，将一个二维列表的每一个列表写为一行

#  将数据写入csv文件  可以写入列表，再用writerow()方法把一个列表写入
import csv

output = [12,'重生之鸡哥在世', '1000']
with open('fxx_books.csv', 'a+', encoding='utf-8') as f:
    w = csv.writer(f)
    w.writerow(output)

输出如下：

2）写入字典

# -*- coding: utf-8 -*-
"""
@File  : 02.py
@author: FxDr
@Time  : 2022/11/01 20:05
"""
import csv
# 写入字典
# 数据
person = [
    {'name': 'Eric', 'age': 18, 'score': 99},
    {'name': 'LiHua', 'age': 18, 'score': 66},
    {'name': 'niCai', 'age': 17, 'score': 100},
]
# 表头
header = ['name', 'age', 'score']

with open('fxx_students.csv', 'w', encoding='utf-8', newline='') as f:
    # 1.创建对象
    dictWriter = csv.DictWriter(f, header)
    # 2.写入表头
    dictWriter.writeheader()
    # 3.写入数据 writerows
    dictWriter.writerows(person)

2、csv读取

import csv
# 读取csv文件
with open('fxx_books.csv', 'r', encoding='utf-8') as f:
    csv_reader = csv.reader(f)
    for row in csv_reader:
        print(row)    # csv_reader把每一行转化为一个列表
        # print(row[0])  #  列表的第一项

输出：

5、将标题写入csv文件：

代码如下：

# -*- coding: utf-8 -*-
"""
@File  : Down.py
@author: FxDr
@Time  : 2022/11/01 19:42
"""
from spider.hupu import Down

#  将数据写入csv文件  可以写入列表，再用writerow()方法把一个列表写入
import csv

output = Down.hupu()
print(type(output))
with open('fxx_hupu.csv', 'a+', encoding='utf-8') as f:
    w = csv.writer(f)
    '''
    for each in output:
        w.writerow(each)
        '''
    w.writerows(output)
    # writerow():单行写入，将一个列表全部写入csv的同一行
    # writerows（）：多行写入，将一个二维列表的每一个列表写为一行