爬虫
18923489164
这个作者很懒,什么都没留下…
展开
-
生成26个字母加0-9数字文件夹 python
import osdef shen(): for i in range(10): if os.path.exists(str(i)): pass else: os.makedirs(str(i)) x = list(map(chr, range(ord('a'), ord('z') + 1))) for i in x: if os.path.exists(str(i)):原创 2022-03-22 10:11:35 · 1232 阅读 · 0 评论 -
python selenium 滑动验证码
def png(): from PIL import Image img = Image.open('1.png') z = img.size data = img.convert('RGB').load() for i in range(z[0]): dd =[] for e in range(z[1]): s = data[i,e] if (s[0]>230)==(s[原创 2021-09-28 12:15:39 · 585 阅读 · 0 评论 -
python ABCDE 生成多选组合
def qu(s): import random a = ['A', 'B', 'C', 'D', 'E'] while True: aa ='' while len(aa)!=s: t= random.choice(a) if t in aa: pass else: aa=aa+t aaa=''原创 2021-08-07 00:03:00 · 1286 阅读 · 0 评论 -
验证码识别
from PIL import Image#处理验证码图片 分以下几个阶段def tu(dd,s=190):#s 表示的是颜色0-225 具体看验证码的颜色深浅了 可以自己试 #二值化 是把0-225的像素点分为0和1 就是黑白色 img = Image.open('{0}.png'.format(dd)).convert('L') threshold = s table = [] for i in range(256): if i <原创 2021-07-11 16:22:35 · 272 阅读 · 0 评论 -
2021-05-26
在使用selenium进行自动化测试中我们有时会遇到这样的情况: 我们需要手动打开浏览器,进入到所需的页面,执行一些手动任务,如输入表单、输入验证码,登陆成功后,然后再开始运行自动化脚本。这种情况下如何使用selenium来接管先前已打开的浏览器呢?这里给出Google Chrome浏览器的解决方案。我们可以利用Chrome DevTools协议。它允许客户检查和调试Chrome浏览器。右键打开chrome所在位置在此打开cmd,在命令行中输入命令:chrome.exe --remote原创 2021-05-26 22:46:53 · 118 阅读 · 0 评论 -
cookies添加python selenium
def add_ck(a): browser.delete_all_cookies()#删除原有cookies #cookies 在浏览器里面复制 a ='BIDUPSID=B8D733AE1AF91ABF07AE6448B2DF91AA; PSTM=1615989783; BD_UPN=12314753; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; __yjs_duid=1_1e44a5dbc5fcbd4e11c4391de4c7d06d161866原创 2021-05-25 11:26:00 · 149 阅读 · 0 评论 -
广元市2021年度专业技术人员公需科目 自动考试python selenium自动化
def sou(a): for q in range(5):#10次 browser.get(a) time.sleep(3) browser.switch_to.default_content() bo = browser.find_element_by_id('studentSystem') browser.switch_to.frame(bo) for i in range(35):原创 2021-05-22 12:05:40 · 979 阅读 · 0 评论 -
21年广东公需课 科技创新现状与发展趋势自动学习python 代码
def ur(): uu =[] for p in a: browser.get(p) time.sleep(5) html = browser.page_source html = bs(html,'lxml') cont = html.findAll('h3') for i in cont: x = i.a原创 2021-05-20 08:58:37 · 3003 阅读 · 7 评论 -
微医(挂号网) 自动挂号python
只需要输入医生的主页就可以自动检测是否有可以约的号。检测到自动约号https://www.guahao.com/def mian(): def dian(s,w): xx = browser.find_elements_by_css_selector(s) for i in xx: if w == i.text: print(i.text) i.click()原创 2021-05-20 08:42:40 · 2242 阅读 · 2 评论 -
Python3 + Appium + 安卓模拟器 环境配置
二、安装Python3的Appium库打开Python安装目录,找到Scripts文件夹,点进去,示例:在控制台里输入命令pip install Appium-Python-Client,然后回车看到下图的提示就表明安装成功了三、安装Android SDK直接下载了Android Studio...原创 2021-03-18 00:17:23 · 166 阅读 · 0 评论 -
三分屏干部在线
def ti(): for i in range(1): browser.switch_to.default_content() bo = browser.find_element_by_css_selector('iframe') browser.switch_to.frame(bo) s = browser.find_element_by_css_selector('embed') time.sleep(0.5)..原创 2020-12-04 10:48:25 · 223 阅读 · 0 评论 -
2020重庆市法治理论知识考试答案查询收集
重庆市法治理论知识考试平台考试题考试完成错误的答案会显示出来 可收集答案:把答案存起来查询就可以了下面就是搜集答案的代码 我得到的题目就下面这些 答案没放上来,我这也有。def sou(): html = browser.find_element_by_xpath('/html/body/div/div[2]/div[2]') html = html.get_attribute('innerHTML') html = bs(html,'lxml') div = html原创 2020-11-09 23:09:01 · 5074 阅读 · 0 评论 -
python selenium 键盘操作 常用
键盘事件 前面的 send_keys() 方法用来模拟键盘输入;keys() 类提供了键盘上几乎所有按键的方法,组合键也是可以的。常用的键盘操作如下:send_keys(Keys.BACK_SPACE) 删除键(BackSpace)send_keys(Keys.SPACE) 空格键(Space)send_keys(Keys.TAB) 制表键(Tab)send_keys(Keys.ESCAPE) 回退键(Esc)send_keys(Keys.ENTER) 回车键(Enter)send_key原创 2020-10-22 12:56:27 · 4346 阅读 · 0 评论 -
新疆公需课继续教育答案 自动获取
#这个新疆继续教育网站比较特别 答案需要从视频里面获取,先下载视频,下载方法可抓包。#考试的内容可以肯定的是都在视频里面,一般考个及格没问题。‘这个函数是打开图片并识别内容文档答案def bai(s): for q in range(1): APP_ID = '*******' API_KEY = '**************' SECRET_KEY = '*************' client = AipOcr(APP原创 2020-10-12 22:22:07 · 8516 阅读 · 1 评论 -
python time
import timett = = time.time()tt = time.localtime(tt)ttt = time.strftime("%Y-%m-%d %H:%M:%S",tt)原创 2020-09-04 21:13:52 · 138 阅读 · 0 评论 -
pip镜像安装 python 安装库
pip install openpyxl -i https://mirrors.aliyun.com/pypi/simple上面是阿里云的 我用了特别快语法 安装pip install openpyxl -i +镜像网址原创 2020-08-06 23:33:01 · 898 阅读 · 0 评论 -
广东公需科目公需课十四五答案考试查询器
QQ录屏20200723111627 效果看上面这个视频 其中需要data.pkl文件 这上面无法上传 如果的可以联系我发给你,博客头像边上有我wx号import picklefile = open('data.pkl','rb')data = pickle.load(file)file.close()def cha(): while True: ...原创 2020-07-23 11:29:38 · 1238 阅读 · 0 评论 -
重庆公需科目快速看视频方法自动学习 python
重庆公需科目想要快速学最好就是自动点开视频学就可以了,不要想秒刷或拖动视频,如果听课时间不够。后台会查,所以只需要自动点开视频检测是否已听完再切换一个视频就可以了,这种方法是最实用最安全的,不做弊。下面是代码,先获取课程的链接,然后再一个一个循环就可以了,比如19年听20多小时 开一天就差不多了。 如果看不懂的需要听课可以加我微信帮你听 号码是我博客的名字 这个网页上面就有文章最开头的位置browser.get('http://rcpx.21tb.com/')def lian(): ..原创 2020-07-17 18:21:24 · 14310 阅读 · 4 评论 -
2020全国网络安全知识竞赛链工宝答案 爬取 自动答题
要用浏览器打开公众号的练题库,然后就可以自动获取答案 最下面是我获取到的300多个题 差不多就这些了 可以进一个加个函数自动答题def fu(): try: browser.refresh() time.sleep(2) xx = browser.find_elements_by_css_selector('div') for i in xx: if i.text =='开始答题':原创 2020-06-25 16:34:00 · 16040 阅读 · 8 评论 -
华医网自动答题小脚本软件,并收集答案保存起来
华医网的考试有不固定性,比如出现题的顺序不同,选择出现的位置不同。这次是A下次不一定就是,,要注意2个地方 一个是题的选择一般最多是5个选择所有最多就循环5次选择自动答题,先用列表把题目和选择都保存起来。提交答案后如果是错的就删除如果是对的就保存起来 建一个字典保存为pkl文件下次遇到一样的题就可以有答案不需要再次收集答案def jian():#先检测华医网是否可以考试 ,这个函数点击进入考试 如果有在线考试 表示就可以考试了 try: try: bro原创 2020-06-19 15:56:33 · 12779 阅读 · 4 评论 -
广西公需科目 当代科学技术前沿知识 考试答案
用百度的识字api 可以识别广西公需科目 当代科学技术前沿知识 的文档《当代科学技术前沿知识读本》电子书(全文).pdf 这个可以在平台下载完了就识别出来就好搜答案了from aip import AipOcrdef bai(na ='1.jpg'): """ 你的 APPID AK SK """ APP_ID = '' API_KEY = '' SECRET_KEY = '' client = AipOcr(APP_ID, API_KEY, SECRET_原创 2020-06-15 11:33:33 · 29597 阅读 · 0 评论 -
2020年广西公需科目 当代科学技术前沿知识 网站自动听课python源码
广西2020年度考试培训改了新内容 去年的程序用不了。 改了一下源码 比之前还简单些了。下面这个是源码def jian(): handles = browser.window_handles browser.switch_to.window(handles[1]) time.sleep(3) browser.switch_to.default_content() browser.switch_to.default_content() bo = browse原创 2020-05-13 22:54:11 · 11204 阅读 · 6 评论 -
人社练兵比武怎样挣积分 python 源码在线答题源码
###↑↑↑↑↑↑↑↑↑↑↑↑↑ 可以自动答题积分 不明白如何用的可以联系我#下面2个函数是学练习的 需要用的库为selenium time re pickle题库需要收集def dan(): #单选或多选 j = browser.find_element_by_xpath('//*[@id="app"]/section/div[2]/div[4]/div/p[1]')....原创 2020-05-03 10:48:00 · 5125 阅读 · 5 评论 -
一个完整的scrapy 项目
#注意 管道文件一定要看settings.py是否开启不然不会执行# -*- coding: utf-8 -*-import scrapyfrom bs4 import BeautifulSoup as bsimport refrom douban.items import DoubanItem #这里是要引入items字段 #scrapy crawl douclass Dou...原创 2020-05-02 12:55:22 · 723 阅读 · 0 评论 -
雪球网
aa = ['600774', '600715', '002962', '002706', '600874', '002730', '300328', '600727', '834779', '300188', '300225', '603967', '002637', '000715', '837679', '300310', '300489', '600768', '002799', '300...原创 2020-05-01 10:38:24 · 1658 阅读 · 0 评论 -
python selenium js操作
#getElementsByName() getElementById() 方法相似,查询元素的 name 属性,id 属性。 getElementsByClassName 返回的是列表js ="var x = document.getElementsByClassName('pv-ask-modal-wrap');x[0].remove();" #删除网页里面第一个class 为pv-...原创 2020-04-28 10:40:00 · 394 阅读 · 0 评论 -
jd 京东店铺链接获取
def page(): html = browser.page_source html = bs(html,'lxml') cont = html.findAll('div',class_='jPage')[0] ss = len(cont.findAll('a')) d = '//*[@id="J_GoodsList"]/div/a[{0}]'.form...原创 2020-04-23 14:12:09 · 2553 阅读 · 0 评论 -
cookies selenium
from selenium import webdriverimport picklebrowser = webdriver.Chrome()browser.get('https://www.baidu.com/')def cun(x): a = 'cookies.pkl' file = open(a,'wb') pickle.dump(x,file)...原创 2020-04-17 14:06:23 · 174 阅读 · 0 评论 -
Python的递归深度问题
1、Python默认的递归深度是有限制的,当递归深度超过默认值的时候,就会引发RuntimeError。理论在997.2、解决方法:最大递归层次的重新调整,解决方式是手工设置递归调用深度。import syssys.setrecursionlimit(1000000)#表示递归深度为100w...转载 2020-04-16 22:13:26 · 319 阅读 · 0 评论 -
截图 识别指定位置文字
def tu(): browser.get_screenshot_as_file('1.png') img = Image.open("1.png") bo = ('图片左边到元素左边的距离','图片上面到元素上边的距离','图片左边到元素最右边的距离','图片上面到元素最下边的距离') bo= (536,366,660,417) im = img.cro...原创 2020-04-16 21:15:17 · 914 阅读 · 0 评论 -
https 网址需忽略未经核实的SSL证书认证 open error [SSL: CERTIFICATE_VERIFY_FAILED]
1. 导入Python SSL处理模块import ssl2. 表示忽略未经核实的SSL证书认证context = ssl._create_unverified_context()url = “https://www.12306.cn/mormhweb/”headers = {“User-Agent”: “Mozilla/5.0 (Windows NT 10.0; Win64; x64)...原创 2020-04-16 14:01:44 · 342 阅读 · 0 评论 -
批量修改文件名 最简单的实现python os
import osdef name() file_dir = r"C:\\Users\\Administrator\\Desktop\\车牌" a = os.listdir(file_dir) for i in a: os.rename(i,i+'.png')#i为原名 print(i+'.png')...原创 2020-04-16 12:31:31 · 197 阅读 · 0 评论 -
google 图片下载
def xia(url): headers ={} headers['user-agent']='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36' req = urllib.re...原创 2020-04-16 00:03:50 · 404 阅读 · 0 评论 -
python 自动分析head生成字典
#需要把head 复制到txt里面 一行一个 默认复制就是def head(): ss = open('head.txt') ss = ss.read() ss = ss.split('\n') headers ={} for i in ss: if 'Accept-Encoding' in i or 'accept-encoding' ...原创 2020-04-15 12:19:37 · 503 阅读 · 0 评论 -
随机生User-Agent代理Ip
import randomimport urllib.requestdef url(url): p ='49.235.246.24:8118' proxy_support = urllib.request.ProxyHandler({'http':p}) opener = urllib.request.build_opener(proxy_support)...原创 2020-04-15 07:34:30 · 718 阅读 · 0 评论 -
python selenium截屏
browser.get_screenshot_as_file('1.png') #保存到当前文件夹python selenium截屏原创 2020-04-12 15:51:15 · 171 阅读 · 0 评论 -
RecursionError: maximum recursion depth exceeded 超过最大递归深度
import syssys.setrecursionlimit(100000) #例如这里设置为十万原创 2020-04-11 23:52:15 · 554 阅读 · 1 评论 -
scrapy 最简易爬虫
import scrapyfrom bs4 import BeautifulSoup as bs#scrapy crawl quotesclass QuotesSpider(scrapy.Spider): name = "quotes" def start_requests(self): urls = [ 'http:...原创 2020-04-11 17:09:05 · 161 阅读 · 0 评论 -
指定图片链接识别图片封装函数
import ssl,sysimport base64from PIL import Imagefrom aip import AipOcrimport requestsimport urllib.requestdef tu(url): headers ={} headers['User-Agent']='Mozilla/5.0 (Windows NT 6.1...原创 2020-04-11 08:56:01 · 419 阅读 · 0 评论 -
urllib requests 常用
import refrom bs4 import BeautifulSoup as bsfrom urllib.request import quoteimport pickleimport requestsimport urllib.requestdef cun(): file = open('','wb') pickle.dump(lian,fil...原创 2020-04-10 20:09:05 · 358 阅读 · 0 评论