- 博客(30)
- 收藏
- 关注
原创 scrapy部署运行测试
安装scrapypip install scrapydpip install scrapyd-client安装好后输入scrapyd,结果如下部署scrapy爬虫,先配置好需要部署的爬虫的scrapy.cfg文件原先# Automatically created by: scrapy startproject## For more information about the [deploy] section see:# https://scrapyd.readthedocs.io/en
2022-05-29 21:43:55 248
原创 scrapy使用cookie小测试
这里是scrapy,spider代码import scrapyfrom boos.items import BoosItemclass BoosSpiderSpider(scrapy.Spider): name = 'boos_spider' allowed_domains = ['www.zhipin.com'] start_urls = ["https://www.zhipin.com/c101280100/?query=python%E7%88%AC%E8%9
2022-05-20 22:47:59 139
原创 scrapy小练习
Spiders(url)–scrapyEnging(中转)–scheduler(url调度)–scrapyEnging(中转)–downloader(请求数据)–scrapyEnging(中转)–Spiders(返回url执行开始的顺便,data继续执行)–itempipeline(数据存储)创建scrapy项目:scrapy startproject+爬虫项目名称scrapy startproject biquge创建爬虫:scrapy genspider+自己设置爬虫名字+爬虫的域名scra.
2022-05-17 16:59:29 416
原创 解析woff,xml
读取woff,xml文件font = TTFont('猫眼榜单.woff')# font.saveXML('3.xml')cmap = font.getBestCmap() #获取code及对应的nameglyf = font.getGlyphOrder() #获取glyf中的name#{120: 'x', 57628: 'uniE11C', 57708: 'uniE16C', 58724: 'uniE564', 58770: 'uniE592', 59076: 'uniE6C4', 611
2022-05-16 22:32:44 491
原创 pyhton爬虫(简单过字体加密)
1. 找到反爬内容确定字体存放位置定位到正则匹配import refrom fontTools.ttLib import TTFontimport requestsheaders = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36 Edg/101.0.1210.39
2022-05-15 21:07:14 588
原创 selenium元素截图(亲测有效)
selenium元素截图(在不滚动滑动条的情况下)可见即可截from selenium import webdriverfrom PIL import Imagedriver_path=r"D:\pythonguanli\chromedriver_win32\chromedriver.exe"driver=webdriver.Chrome(executable_path=driver_path)driver.get("https://www.hao123.com/?src=from_pc_logo
2022-05-13 10:47:52 4655
原创 BeautifulSoup简单应用(python爬虫)
打开cmd安装pip install beautifulsoup4根据属性定位server=soup.find(attrs={'id':'hao123-govsite'})定位server下的a标签a=server.a获取a标签的中的href和文字text=a.texttext=a['href']根据属性定位div下的所有a标签a=soup.find_all(attrs={'class':'g-gc'})import requestsfrom bs4 import B.
2022-05-10 00:28:14 349
原创 python爬虫小bug
利用验证码登录,借用了ocr进行识别,过不了import requestsfrom bs4 import BeautifulSoupimport tesserocrfrom PIL import Imagefrom yzmapi import killerimport requests_htmlsession=requests.session()# session = requests_html.HTMLSession()headers={ "user-agent": "Mozi
2022-05-09 02:23:24 683
原创 python爬虫进阶(MD5)
找到加密参数pwd: e10adc3949ba59abbe56e057f20f883e根据参数pwd进行搜索定位加密方法点击进入,进行定位调试,如下点击md5进入在这里可以看到md5的加密方法啥的,然后就是找个环境扣下来运行,大概运行情况如下,结果可以看到其实和调用hashlib库得到的加密是一样的以后遇到这种就直接使用第二个方法简单快捷就不用去逆向了侵权立删...
2022-05-07 20:19:51 1064
原创 处理请求头(headers--给ua,cookie,referer加引号)
一天一个小技巧import reheaders=""" cookie: SINAGLOBAL=8338520552292.696.1621254705386; SUB=_2AkMX599Lf8NxqwJRmfgWyW_laYRwzQvEieKhuy6QJRMxHRl-yT9kqlADtRB6PGfxpCaNTbFDQyYtLz9mJAvPKRrVIqAM; SUBP=0033WrSXqPxfM72-Ws9jqgMF55529P9D9WhsgjIAinkWne46-hGaK.I6; UOR=,,cn.
2022-04-26 02:56:08 556
原创 python用了协程以后爬虫程序
没有用之前#coding:utf-8import requestsfrom lxml import etreefrom bs4 import BeautifulSoupfrom concurrent.futures import ThreadPoolExecutor# 线程池import timeheader={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, li
2022-04-26 02:27:10 762
原创 xpath定位简单应用
获取字段标签属性(href)li=tree.xpath("//div[@class='article']//li//a/@href")[0]可以看到href在div[@class='article']里面,直接//定位,//div[@class='article']第二步接着//定位到li(因为li在第一步定位的第n层,不是在下一层级用/定位不到)//div[@class='article']//li)第三步//接着定位a类似第二步想法,最后直接/@href定位属性url(相当于在a的下
2022-04-24 03:46:38 1043
原创 记下笔记(python)
以下问题解答只是个人理解,可能存在错误,供参考,有错敬请指正,谢谢,也可以说下自己的理解,或者自行百度更权威的理解Python中__init__ 和__new__的区别__new__是在实列创建之前被调用,创建实列返回实列对象__init__是在实列创建之后被调用,通常用来初始化对象整个爬虫的工作流程发送请求-接收数据-处理数据-存储http的响应码(100-199)信息响应(200-299)成功响应(300-399)重定向(400-499)客服端错误(500-599)服务端错误.
2022-04-22 03:18:42 107
原创 mitmproxy安装和使用
1. 安装mitmproxy库(windows)pip install mitmproxy2.安装好记得安装证书3.查看是否安装完成打开cmd,输入mitmdump --version,输出如下C:\Users\luoha>mitmdump --versionMitmproxy: 5.3.0Python: 3.7.0OpenSSL: OpenSSL 1.1.1h 22 Sep 2020Platform: Windows-10-10.0.19041-SP04.使用
2022-04-09 01:09:24 876
原创 requests请求几个参数
安装requests库 pip install requestsrequests库的使用import requestsurl="https://www.baidu.com" #请求的地址header={ "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36 Edg/91.0.864.
2022-04-09 00:29:32 472
原创 简单练习pyautogui
注释个人见解import pyautoguiimport cv2import timea=pyautogui.size()#屏幕分辨率print(a)b=pyautogui.position()#鼠标的坐标位置print(b)# pyautogui.moveTo(100,200,1) #鼠标移动,绝对位置# pyautogui.move(0,50,2)#相对位置# pyautogui.dragTo(100,200,2,button='right') #鼠标拖动,默认会点击鼠标左键#
2022-04-01 20:38:35 219
小程序实现简单的页面交付
2023-02-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人