爬虫
一小小辣椒
这个作者很懒,什么都没留下…
展开
-
免费听好歌曲,音乐下载工具
分享一个无聊自己写的一个实用小工具:音乐下载器看图:安装包下载地址提取码:qxar链接: https://pan.baidu.com/s/14Ew3NbZCJu4lEZXax17sqQ 提取码: qxar 复制这段内容后打开百度网盘手机App,操作更方便哦代码分享:import requestsimport json,sysfrom moviepy.editor import *import os , threadingsession = requests.session()head原创 2021-05-09 22:56:45 · 594 阅读 · 0 评论 -
scrapy 解决中途中断爬取问题
参考代码:爬取政府招标信息政府招标思路:爬虫文件开启时本地记录相关爬取信息,下次开启时判断本地记录的信息,跳过已记录的相关内容爬取def get_erveday(): begin_date = datetime.date(2021,4,1).strftime("%Y-%m-%d") date_list = [] begin_date = datetime.datetime.strptime(begin_date, "%Y-%m-%d") end_date = datet原创 2021-04-22 12:48:07 · 1269 阅读 · 0 评论 -
scrapy 政府招标文件抓取
目标网址:广东政府招标声明:此内容仅为学习交流使用,不能作商业用途,如需提取相关信息请告知并说明用途,否则一切后果与本人无关。首先爬取的内容:分类字段也需要所以要把每个分类做一个字典:subclass_dict ={ "采购意向公开":"59", "单一来源公示":"001051", "进口产品清单":"", "采购计划":"001101", "采购需求":"001059", "资格预审需求":"001052,001053", "采购公告":原创 2021-04-22 12:30:31 · 803 阅读 · 1 评论 -
Python实现一个全国各高校查询系统
想法:整合全国各地高校保存下来,自己随时随地查询各高校官网信息!资源网站:那些年,我们一起被折磨过的高考资源提取方式:Scrapy爬虫保存方式:mysql数据库scrapy 项目 spider.py 代码:import scrapyfrom scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Rulefrom university.items import UniversityIt原创 2021-02-21 23:01:49 · 1809 阅读 · 0 评论 -
代理IP测试方法
分享一个python 测试代理IP的可用性方法:下面是我从一些代码网站爬取下来的ip直接上代码了import csvimport requestsfilename = r"C:\Users\Administrator\Desktop\代理ip.csv"#待测代理ip文件f = open(filename)sheet = f.readlines()for she in sheet[1:len(sheet)]: she_str = she.split(",") #逗号分隔,转列表格式原创 2021-01-18 22:40:45 · 1963 阅读 · 0 评论 -
一键下载QQ空间相册
无聊写了一个挺实用的下载爬虫:爬取qq空间相册开发者工具找到以下:网址这里能找到对应的相册ID,后面可用到,所以先分析复制粘贴网址:在Netword中找到分析headers:这里的参数是不变的可直接传人然后点入随便一个相册,开发者工具Netword数据包中找到:点入可发现所有的相册里面的图片都在这数据包中:老办法,分析url,拉到低,分析url传入的data:红框内的数据是关键,第一个是刚刚我们第一步获取的相册ID,第二个框是一个URL里读取的相片数量,这里的30就是等于一个原创 2020-11-29 18:47:29 · 1698 阅读 · 0 评论