爬虫速成(四):数据存储

我们获取到数据之后,通常不是只输出一下过过眼瘾,而是存储下来,简单介绍一下常用的方式

保存为csv文件

csv文件的操作类似txt文本,但它显示出来的效果类似Excel表格,是很好用的一种形式。

csv文件使用英文逗号作为分隔符号,注意获取的数据有没有英文逗号。除此之外,要记得写入换行符嗷!

以我们的例子为例

import requests
import re
count=0
with open('李清照诗词集.csv','w',encoding='utf-8') as fp:
    for i in range(1,12):
        print('正在爬取第%d页'%i)
        url='https://so.gushiwen.org/authors/authorvsw.aspx?page='+str(i)+'&id=9cb3b7c0e4a0'
        response=requests.get(url).text
        # print(response)
        poem_title_list=re.findall('<textarea style=" background.*id=.*">?(.*》?)https',response)[:-1]
        count+=len(poem_title_list)
        for j in poem_title_list:
            # 字符串处理
            data=j.split('——宋代·李清照')
            data.insert(1,',')
            data.reverse()
            # 添加换行符
            data.append('\n')
            fp.writelines(data)
print('共%d首诗词'%count)

保存为Excel文件

使用pandas

pandas类似于低配版的R语言,对数据处理与操作十分友好,我们可以直接使用pandas读写Excel,方法如下

#110首
import requests
import pandas as pd
import re
count=0

all_poems = []
for i in range(1,12):
    print('正在爬取第%d页'%i)
    url='https://so.gushiwen.org/authors/authorvsw.aspx?page='+str(i)+'&id=9cb3b7c0e4a0'
    response=requests.get(url).text
    # print(response)
    poem_title_list=re.findall('<textarea style=" background.*id=.*">?(.*》?)https',response)[:-1]
    count+=len(poem_title_list)
    for j in poem_title_list:
        # 字符串处理
        data=j.split('——宋代·李清照')
        all_poems.append({"title":data[1],'text':data[0]})
        print(data)
print('共%d首诗词'%count)

# 转化为pandas数据(二维数据)
df = pd.DataFrame(all_poems)
# 保存为Excel
df.to_excel("李清照诗集.xlsx",index=False)

建议大家保存的时候后缀写xlsx,因为pandas是有依赖库的,当为xls的时候调用xlwt库,为xlsx时调用openpyxl库。

当写入大量数据的时候,xlwt会报错,openpyxl库则可以接受!

  • pandas构造DataFrame还有另外的形式,不过不建议使用
  • 最后导出Excel的时候,index=False表示不写入索引,大家可以改成True看看有什么变化

不使用pandas

那就类似自动化办公了,上面说了,pandas库的依赖是xlwt或openpyxl,我们可以直接学习这两个库的操作,当然,教程我肯定是写了的点击跳转


保存到数据库中

因为基础的增删改查语法都差不多,我建议先学如何使用SQLit,这是python可以直接操作的,不需要再下载别的软件(有些人下安装mysql会高血压…)

关于如何使用基础的增删改查语句,我当然是写了教程点击跳转

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Python爬虫是一种用于自动化从网站上抓取数据的工具,要爬取最少一万条数据,你需要考虑以下几个关键步骤: 1. **目标选择**:明确你要抓取的数据来源和格式,比如某个网页的HTML结构或API接口。 2. **库的选择**:Python有许多爬虫库,如`BeautifulSoup`、`Scrapy`、`Requests`等。`BeautifulSoup`适合简单的网页解析,而`Scrapy`则适合大型复杂项目,有更强大的功能。 3. **请求与响应**:使用`requests`库发起HTTP请求获取网页内容,然后使用解析库(如`BeautifulSoup`)解析HTML。 4. **数据提取**:编写代码来查找并提取你需要的数据。这通常涉及到XPath或CSS选择器等技术。 5. **数据存储**:设置数据存储方式,例如CSV、JSON、数据库(如SQLite、MySQL)或文件,根据数据量大小来决定。 6. **并发处理**:为提高效率,可以使用多线程或多进程,或者第三方库如`grequests`进行异步请求。 7. **异常处理与爬虫控制**:编写代码来处理可能出现的网络错误、反爬策略(如验证码、频率限制)以及数据清洗。 8. **爬虫设计与优化**:遵循robots.txt规则,避免对目标站点造成过大压力,适时设置延时和限速。 9. **监控与日志**:跟踪爬虫运行状态,记录错误和日志,以便于调试和维护。 **相关问题--:** 1. 你能推荐一个适合初学者的Python爬虫库吗? 2. 如何处理网站的反爬机制? 3. 什么是robots.txt文件,爬虫应该如何遵守?
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

笼中小夜莺

嘿嘿嘿,请用金钱尽情地蹂躏我吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值