python爬取数据并存到excel,python爬取数据的意义

大家好,小编来为大家解答以下问题,python数据爬取有哪些库和框架,python爬取数据保存到数据库,现在让我们一起来看看吧!

Source code download: 本文相关源码

前言

大家早好、午好、晚好吖 ❤ ~欢迎光临本文章

爬虫请求解析后的数据,需要保存下来,才能进行下一步的处理,一般保存数据的方式有如下几种:

  • 文件:txt、csv、excel、json等,保存数据量小。

  • 关系型数据库:mysql、oracle等,保存数据量大学python需要先学c么

  • 非关系型数据库:Mongodb、Redis等键值对形式存储数据,保存数据量大。

  • 二进制文件:保存爬取的图片、视频、音频等格式数据。

首先,获取豆瓣读书《平凡的世界》的3页短评信息,然后保存到文件中。

具体代码如下(忽略异常):

import requests
from bs4 import BeautifulSoup

urls=['https://**网址不可放**/subject/1200840/comments/?start={}&limit=20&status=P&sort=new_score'.format(str(i)) for i in range(0, 60, 20)] #通过观察的url翻页的规律,使用for循环得到3个链接,保存到urls列表中
print(urls)
dic_h = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36"}
comments_list = [] #初始化用于保存短评的列表

for url in urls: #使用for循环分别获取每个页面的数据,保存到comments_list列表
    r = requests.get(url=url,headers = dic_h).text

    soup = BeautifulSoup(r, 'lxml')
    ul = soup.find('div',id="comments")
    lis= ul.find_all('p')

    list2 =[]
    for li in lis:
        list2.append(li.find('span').string)
    # print(list2)
    comments_list.extend(list2)
 print(comments_list)

爬到评论数据保存到列表中:

使用open()方法写入文件‘
保存数据到txt

将上述爬取的列表数据保存到txt文件:

'''
遇到问题没人解答?小编创建了一个Python学习交流QQ群:702813599
寻找有志同道合的小伙伴,互帮互助,群里还有不错的视频学习教程和PDF电子书!
'''
with open('comments.txt', 'w', encoding='utf-8') as f: #使用with open()新建对象f
    # 将列表中的数据循环写入到文本文件中
    for i in comments_list:
        f.write(i+"\n") #写入数据

保存数据到csv

CSV(Comma-Separated Values、逗号分隔值或字符分割值)

是一种以纯文件方式进行数据记录的存储格式,保存csv文件,需要使用python的内置模块csv。

写入列表或者元组数据:

创建writer对象,使用writerow()写入一行数据,使用writerows()方法写入多行数据。

使用writer对象写入列表数据,示例代码如下:

'''
遇到问题没人解答?小编创建了一个Python学习交流QQ群:702813599
寻找有志同道合的小伙伴,互帮互助,群里还有不错的视频学习教程和PDF电子书!
'''
import csv

headers = ['No','name','age']
values = [
    ['01','zhangsan',18],
    ['02','lisi',19],
    ['03','wangwu',20]
]
with open('test1.csv','w',newline='') as fp:
    # 获取对象
    writer = csv.writer(fp)
    # 写入数据
    writer.writerow(headers) #写入表头
    writer.writerows(values) # 写入数据

写入字典数据:

创建DictWriter对象,使用writerow()写入一行数据,使用writerows()方法写入多行数据。

使用 DictWriter 对象写入字典数据,示例代码如下:

import csv

headers = ['No','name','age']
values = [
    {"No":'01',"name":'zhangsan',"age":18},
    {"No":'02',"name":'lisi',"age":19},
    {"No":'03',"name":'wangwu',"age":20}]
with open('test.csv','w',newline='') as fp:
    dic_writer = csv.DictWriter(fp,headers)
    dic_writer.writeheader()# 写入表头
    dic_writer.writerows(values) #写入数据

将上述爬取到的数据保存到csv文件中:

'''
遇到问题没人解答?小编创建了一个Python学习交流QQ群:702813599
寻找有志同道合的小伙伴,互帮互助,群里还有不错的视频学习教程和PDF电子书!
'''
import requests
import csv
from bs4 import BeautifulSoup
urls=['https://book.douban.com/subject/1200840/comments/?start={}&limit=20&status=P&sort=new_score'.format(str(i)) for i in range(0, 60, 20)] #通过观察的url翻页的规律,使用for循环得到5个链接,保存到urls列表中
print(urls)
dic_h = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36"}
comments_list = [] #初始化用于保存短评的列表

for url in urls: #使用for循环分别获取每个页面的数据,保存到comments_list列表
    r = requests.get(url=url,headers = dic_h).text

    soup = BeautifulSoup(r, 'lxml')
    ul = soup.find('div',id="comments")
    lis= ul.find_all('p')

    list2 =[]
    for li in lis:
        list2.append(li.find('span').string)
    # print(list2)
    comments_list.extend(list2)

new_list = [[x] for x in comments_list] #列表生成器,将列表项转为子列表

with open("com11.csv", mode="w", newline="", encoding="utf-8") as f:
    csv_file = csv.writer(f) # 创建CSV文件写入对象
    for i in new_list:
        csv_file.writerow(i)

使用pandas保存数据

pandas支持多种文件格式的读写,最常用的就是csv和excel数据的操作,

因为直接读取的数据是数据框格式,所以在爬虫、数据分析中使用非常广泛。

一般,将爬取到的数据储存为DataFrame对象(DataFrame 是一个表格或者类似二维数组的结构,它的各行表示一个实例,各列表示一个变量)。

pandas保存数据到excel、csv

pandas保存excel、csv,非常简单,两行代码就可以搞定:

'''
遇到问题没人解答?小编创建了一个Python学习交流QQ群:702813599
寻找有志同道合的小伙伴,互帮互助,群里还有不错的视频学习教程和PDF电子书!
'''
df = pd.DataFrame(comments_list) #把comments_list列表转换为pandas DataFrame
df.to_excel('comments.xlsx') #保存到excel表格
# df.to_csv('comments.csv')#保存在csv文件

结尾给大家推荐一个非常好的学习教程,希望对你学习Python有帮助!

48小时搞定全套爬虫教程!你和爬虫大佬只有一步之遥【python教程】

尾语

好了,今天的分享就差不多到这里了!

对下一篇大家想看什么,可在评论区留言哦!看到我会更新哒(ง •_•)ง

喜欢就关注一下博主,或点赞收藏评论一下我的文章叭!!!

最后,宣传一下呀~👇👇👇 更多源码、资料、素材、解答、交流 皆点击下方名片获取呀👇👇👇

  • 22
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 可以使用Python编写程序来爬取网页数据,然后将数据写入Excel文件中。具体步骤包括:1.使用requests库发起HTTP请求获取网页源代码;2.使用BeautifulSoup库解析网页内容;3.将解析后的数据存储到Excel文件中,可以使用pandas库或者openpyxl库进行操作。需要注意的是,在爬取网页数据的过程中,必须遵守相关的法律法规和网站的使用规定,不得进行非法操作和侵犯他人隐私的行为。 ### 回答2: Python作为一种高级编程语言,具有强大的爬虫和数据处理能力。与此同时,Excel又是一款常见的办公软件,被广泛应用于数据分析和操作中。因此,通过Python爬取网页数据Excel,就变得非常必要和有用了。 爬取网页数据,一般都是使用requests和beautifulsoup4两个库来实现。其中requests用于获取网页的源代码,beautifulsoup4则用于解析网页的DOM结构,提取出我们需要的部分数据。此外,还需要借助一些其他的库,如pandas来进行数据的可视化、操作和处理。 整个流程可以分为以下几个步骤: 1.使用requests库获取目标网页的源代码,也可以结合selenium等工具模拟浏览器来获取动态页面的数据; 2.使用beautifulsoup4库对网页进行解析,提取出我们需要的数据,比如文章标题、发布日期、作者等等; 3.使用pandas库进行数据的可视化和处理,将数据整理成DataFrame格式,然后输出到Excel文件中; 4.本地读取Excel文件并进行数据的分析、操作和展示。 在进行爬虫开发期间,还需要注意到一些问题,比如在访问网站的时候需要进行User-Agent、Cookie和代理的设置,同时还要具备良好的爬虫道德,避免对目标网站造成不必要的影响。 总之,通过Python爬取网页数据Excel,可以极大地方便我们对数据的分析和操作,提升工作效率和准确度。同时,这也是一个非常有用的技能,在数据分析和数据挖掘等领域有广泛的应用。 ### 回答3: Python是一种强大的编程语言,可用于从网络爬取数据,将其处理并保存到多种数据格式中,包括Excel。这种功能是非常有用的,特别是当我们希望收集大量信息并进行分析时。下面是一些在Python爬取网页数据并将其保存Excel中的步骤: 1. 导入必要的库:Python有许多库可用于爬取和处理网页数据,其中一些最常用的是BeautifulSoup、requests和pandas。在使用这些库前需要先安装它们(pip install)。 2. 获取网页:使用requests库中的get方法可以轻松获取网页内容。 3. 解析网页:BeautifulSoup库是Python中最常用的解析HTML网页的库,它可以轻松地找到HTML页面的特定元素。 4. 处理数据:使用pandas库中的DataFrame对象可以轻松地处理表格数据并将其存储到Excel中。 5. 将数据保存Excel:使用pandas库中的to_excel方法可以将处理后的数据保存Excel。 下面是一个示例代码,用于从某个网站中获取数量、日期和价格的数据,并将其存储到Excel中: ``` import requests from bs4 import BeautifulSoup import pandas as pd url = 'https://www.example.com/data' response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') table = soup.find('table',{'class':'data-table'}) rows = table.find_all('tr') data = [] for row in rows: cols = row.find_all('td') cols = [col.text.strip() for col in cols] data.append([col for col in cols if col]) df = pd.DataFrame(data, columns=['Quantity', 'Date', 'Price']) df.to_excel('data.xlsx', index=False) ``` 在上面的代码中,我们首先使用requests库获取特定网页的内容,并使用BeautifulSoup库找到网页中的表格数据。接下来,我们使用pandas库中的DataFrame对象处理数据,并使用to_excel方法将其保存Excel文件中。此示例代码非常简单和易于理解,但是,在实际的爬虫项目中,您可能需要有更高级的技能和更复杂的代码来处理不同的情况,例如数据更新、数据清洗和数据预处理等。需要注意的是,爬取网页数据存在合法性和道德性问题,应遵守相关法律法规,不得擅自收集、使用和公开他人的相关信息。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值