Pyhton如何爬取网站数据并导入到excel

一、环境

1.pycharm

2.python3.7

二、功能

通过获取Redmine(管理系统软件) XXX项目列表来获取对应项目的名称,并输出到Excel

三、开发步骤

好,正式开始:

第一步:

导入需要应用的资源包,具体含义大家可以百度,这部分内容相对比较基础。

from urllib import request
import requests
import re
from lxml import html
import xlwt
etree = html.etree

第二步:

(1)导入url,也就是你需要访问的网站;

(2)导入headers,其中包含agent和coolie,主要记录网站访问标识和用户登录信息(关于cookie,一定是需要去查看登录网页的cookie,查看方法可以看我上篇)

url = 'https://rm.qkmtech.com/projects/qkmp923/roadmap/'
headers ={
        'user-Agent': 'Mozilla/5.0(Windows NT 10.0;WOW64)AppleWebKit/537.36(KHTML, likeGecko)Chrome/78.0.3904.108Safari/537.36',
        'Cookie':''
         }

第三步:

获取网页

req = request.Request(url,headers = headers)

respose = request.urlopen(req)
html = respose.read().decode()

第四步:

通过正则表达式进行解析并匹配

res1 = r'</a>(.*?)</td>' #正则表达式  获取需要解析的数据!这部分主要解析项目名称
idlist = re.findall(res1,html)

第五步:

写入

savepath ="RE.xls"

book = xlwt.Workbook(encoding="utf-8",style_compression=0)

sheet = book.add_sheet('Redmine',cell_overwrite_ok=True)
sheet.write(0,0,"售前评估中的项目")
for i in range(0,len(idlist)):
        print("第%d条" %(i+1))                    #写入第一行数据
        data = idlist[i].strip(':')
        for j in range(0,1):
            sheet.write(i+1,j,idlist[i].strip(':'))

book.save(savepath) #数据保存

总结:

以上就是通过爬虫的方式去爬取一个网页的基本数据,后期我还会分享其他网页的爬取。欢迎关注和交流~

使用Python爬取网上数据并写入Excel通常可以通过以下几个步骤来实现: 1. 导入所需的库:首先需要导入`requests`库来发送网络请求获取网页数据,以及`openpyxl`库来操作Excel文件。 2. 发送网络请求获取网页数据:使用`requests`库发送GET请求,获取目标网页的HTML内容。 3. 解析网页数据:可以使用`BeautifulSoup`库将获取到的HTML内容进行解析,提取所需的数据。 4. 创建Excel文件并写入数据:使用`openpyxl`库创建一个新的Excel文件,并使用`Workbook`函数创建一个工作表对象。然后,通过遍历所需的数据,将其写入到工作表的相应单元格中。 5. 保存Excel文件:使用`save`方法将工作表保存为Excel文件。 以下是一个例子,演示了如何使用Python爬取网上数据并写入Excel: ```python import requests from bs4 import BeautifulSoup from openpyxl import Workbook # 发送网络请求获取网页数据 url = 'http://example.com' response = requests.get(url) html = response.text # 解析网页数据 soup = BeautifulSoup(html, 'html.parser') data = [] # 假设要提取的数据在网页的<table>标签中,可以使用soup.find()方法来查找<table>标签,再通过其他方法提取数据,并将其存储在一个列表中 # 创建Excel文件并写入数据 wb = Workbook() ws = wb.active # 遍历所需的数据,并将其写入到工作表中 row_num = 1 for item in data: column_num = 1 for value in item: ws.cell(row=row_num, column=column_num, value=value) column_num += 1 row_num += 1 # 保存Excel文件 wb.save('data.xlsx') ```
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值