Python爬虫学习(7):将爬取的结果写入本地txt/csv/excel,保存到服务端Mysql数据库

一、前言

本篇文章将上一篇爬取到的猫眼电影信息写入本地txt,csv,excel以及服务端的数据库
爬取猫眼电影:https://editor.csdn.net/md/?articleId=114581101

二、写入本地txt文件

1、方式一:使用print

定义写入文件函数:
在这里插入图片描述
调用写入文件函数:
在这里插入图片描述
运行结果:
在这里插入图片描述

2、方式二:使用文件对象.write()

定义写入文件函数:
在这里插入图片描述
调用写入文件函数:
在这里插入图片描述
运行结果:
在这里插入图片描述
备注:
(1)如果文件不存在,open()会自动创建该文件
(2)打开文件的模式有以下几种:

   ‘t’:文本模式(默认)
   ‘x’:写模式,新建一个文件,如果该文件已存在则会报错
   ‘b’:二进制模式
   ‘+’:打开一个文件进行更新(可读可写)
   ‘U’:通用换行模式(不推荐)
   'r':以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式
   ’rb‘:以二进制格式打开一个文件用于只读。文件指针将会放在文件的开头。这是默认模式。一般用于非文本文件如图片等
   ’r+‘:打开一个文件用于读写。文件指针将会放在文件的开头
   ’rb+‘:以二进制格式打开一个文件用于读写。文件指针将会放在文件的开头。一般用于非文本文件如图片等
   ’w‘:打开一个文件只用于写入。如果该文件已存在则打开文件,并从开头开始编辑,即原有内容会被删除。如果该文件不存在,创建新文件
   ’wb‘:以二进制格式打开一个文件只用于写入。如果该文件已存在则打开文件,并从开头开始编辑,即原有内容会被删除。如果该文件不存在,创建新文件。一般用于非文本文件如图片等
   ’w+‘:打开一个文件用于读写。如果该文件已存在则打开文件,并从开头开始编辑,即原有内容会被删除。如果该文件不存在,创建新文件
   ’wb+‘:以二进制格式打开一个文件用于读写。如果该文件已存在则打开文件,并从开头开始编辑,即原有内容会被删除。如果该文件不存在,创建新文件。一般用于非文本文件如图片等
   ’a‘:打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。也就是说,新的内容将会被写入到已有内容之后。如果该文件不存在,创建新文件进行写入
   ’ab‘:以二进制格式打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。也就是说,新的内容将会被写入到已有内容之后。如果该文件不存在,创建新文件进行写入
   ‘a+’:打开一个文件用于读写。如果该文件已存在,文件指针将会放在文件的结尾。文件打开时会是追加模式。如果该文件不存在,创建新文件用于读写
   ‘ab+’:以二进制格式打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。如果该文件不存在,创建新文件用于读写

三、写入CSV文件

导入csv:
在这里插入图片描述
定义写入文件函数:
在这里插入图片描述
调用写入文件函数:
在这里插入图片描述
运行结果:
在这里插入图片描述

四、写入excel文件

导入openpyxl:
在这里插入图片描述
定义写入文件函数:
在这里插入图片描述
调用写入文件函数:
在这里插入图片描述
运行结果:
在这里插入图片描述
在这里插入图片描述

五、写入服务器端数据库

导入mysql.connector:
在这里插入图片描述
定义保存到服务器数据库的函数:
在这里插入图片描述
调用保存到服务器数据库的函数:
在这里插入图片描述
运行结果:
Navicat工具远程连接数据库,查看XJ数据库下新创建了一张表,表名为filmInfos,查询该表数据,有120条。
在这里插入图片描述
在这里插入图片描述
-----end-----

  • 18
    点赞
  • 106
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 可以使用Python中的requests和BeautifulSoup库来爬取百度热榜。下面是一个简单的代码示例: ```python import requests from bs4 import BeautifulSoup url = 'http://top.baidu.com/buzz?b=1&fr=topindex' response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') # 获取热榜列表 hot_list = soup.find_all('a', class_='list-title') # 输出热榜标题 for hot in hot_list: print(hot.text) ``` 这个代码会输出当前百度热榜的前20个热点话题的标题。你可以根据需要对代码进行修改来获取更多信息。 ### 回答2: Python可以使用第三方库如BeautifulSoup和Requests实现对百度热榜的爬取。首先,我们需要安装这些库,可以通过pip install命令在命令行中安装。 然后,我们需要导入这些库,以便在Python脚本中使用。导入BeautifulSoup和Requests库后,我们可以使用requests库发送HTTP请求,获取百度热榜的网页内容。在请求中,我们可以使用用户代理,以防止被服务器阻止。 接下来,我们可以使用BeautifulSoup库对网页内容进行解析。我们可以找到热榜网页中包含热榜内容的HTML标签,并使用BeautifulSoup的一些方法来提取这些内容。例如,我们可以使用find方法根据标签名或属性来查找特定的元素,然后使用text属性来提取该元素的文本内容。 最后,我们可以将提取到的热榜内容保存到一个文件中,以便后续的分析和处理。我们可以使用Python文件操作方法,如open和write,来创建并写入文件。 总结起来,Python爬取百度热榜的过程包括发送HTTP请求获取网页内容、使用BeautifulSoup解析网页内容、提取热榜信息,并将其保存文件中。这样,我们就可以方便地获取和处理百度热榜的数据了。 ### 回答3: 要使用Python爬取百度热榜,可以利用Python的网络爬虫库和数据处理库来实现。以下是一个简单的Python爬取百度热榜的示例代码: ```python import requests from bs4 import BeautifulSoup url = 'https://top.baidu.com/board?tab=realtime' response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') rankings = soup.find_all('a', class_='text-link') for ranking in rankings: title = ranking.text.strip() print(title) ``` 首先,我们导入`requests`和`BeautifulSoup`库,`requests`用于发送HTTP请求,`BeautifulSoup`用于解析HTML。然后,我们指定百度热榜的URL,并发送GET请求获取网页内容。 使用BeautifulSoup解析网页内容后,我们可以通过查找HTML中特定的标签和class来提取我们想要的信息。在这个例子中,百度热榜的热搜榜单标题使用`<a>`标签和`text-link`类来定义,因此我们使用`soup.find_all()`方法找到所有符合这一条件的元素。 最后,通过遍历这些元素,我们使用`.text`属性获取标题文本,并使用`.strip()`方法去除字符串两端的空格,最后将结果打印出来。 当然,这只是一个简单的示例,实际的爬虫项目可能需要更多的处理和调整,例如处理网页反爬虫机制、保存数据数据库等。但是以上代码提供了一个基本的框架,用于理解如何使用Python爬取百度热榜的基本步骤。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值