使用Scrapy框架爬取个人的所有Git项目,保存到本地为zip格式

文件重命名
参考:
https://blog.csdn.net/weixin_43343144/article/details/87908448

搭建git环境
参考:
https://www.jianshu.com/p/86c385682ac8

Git仓库xxxxxxx保存了开发项目。
采用握Scrapy框架实现:
(1)从xxxx/login获取cookie的值
(2)登录xxxxx
(3)将个人的所有项目(zip格式)下载到本地某个目录,如:xxxx/项目名.zip

注意:
1. cookie需要字典格式
2.FilesPipeline get_media_requests和item_completed内部已经执行,可以省略不重写
3.如果要选择自己的文件名输出格式,必须重写FilesPipeline类的file_path方法
4.setting的FILES_STORE是文件下载主要路径 ./代表当前项目目录
5.progit.py只是获取数据,对数据的打印和下载是由pipeline来完成
在这里插入图片描述
setting.py
在这里插入图片描述

在这里插入图片描述
pipelines.py
下载重命名
在这里插入图片描述
记录链接
在这里插入图片描述
items.py
在这里插入图片描述
pycharm上执行
在这里插入图片描述

转变cookie为字典
参考:
https://www.cnblogs.com/duanlinxiao/p/9824183.html

获取下载路径和链接
def parse(self, response):
soup = BeautifulSoup(response.text, ‘lxml’)
for hrefs in soup.find_all(attrs={‘class’: re.compile(“private”)}):
items = ProgitItem()
alist = hrefs.find(‘a’)
link = alist.get(‘href’)
“”"
格式化为zip下载
“”"
item = ‘xxxxxx’ + link + ‘/archive/master.zip’
print(item)
file_urls =[]
items[‘file_urls’] = item
if item:
file_urls.append(item)
yield FileDownloadItem(file_urls=file_urls)
yield ProgitItem(file_urls=items)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值