爬虫
文章平均质量分 68
觅远
这个作者很懒,什么都没留下…
展开
-
python+exifread+百度地图api:获取图片信息及地理位置
要注意的是必须是携带 Exif 信息的原始图片才能解析。如果中间进行了压缩、或者P图等操作,则无法识别。如微信等一些社交平台会专门针对 Exif 进行处理,所以是不会暴露位置信息。Exif是指可交换图像文件格式的缩写,它是一种为数字照片存储和传输附加元数据的标准格式。Exif包含了拍摄设备、拍摄日期、曝光时间、焦距、经纬度等多种信息。获取图片信息可以使用exifread库,第三方库需要安装。百度api接口AK申请。原创 2024-07-15 17:09:32 · 371 阅读 · 0 评论 -
Python-伪数据构造库fake2db 、radar、lipsum
-custom:可选。支持sqlite、mysql、postgresql、mongodb、redis、couchdb。--db:数据库类型,有sqlite、mysql、postgresql、mongodb、redis、couchdb。--seed:可选。用于种子随机生成器的整数,以在运行之间生成相同的数据集。--password:可选。--locale:可选。--host:可选。用于数据库连接的主机名。--port:可选。--name:可选。--username:可选。--rows:生成数据数量。原创 2023-03-22 15:34:22 · 511 阅读 · 0 评论 -
算法加密(base64/md5/sha/DES/AES/RSA)
加密过程:AES为分组密码,分组密码也就是把明文分成一组一组的,每组长度相等,每次加密一组数据,直到加密完整个明文。将要编码的字符转换为对应的unicode编号,再将这个编号转为二进制字符,然后以六个长度为单位将编号分为一组,如果长度不够六个长度,用 ”0” 补齐,对每组六个长度的编码使用二进制解码,解码后的字符和Base64编码表相对应,以四个长度表示一个字符,如果不够四个长度就是用 “=” 补齐。通常使用较小的密钥,一般小于256bit,因为密钥越大,加密越强,加密和解密过程也会越慢。原创 2021-02-02 22:04:40 · 395 阅读 · 0 评论 -
python—3种执行CMD命令的方法、pythonping库无阻塞执行ping命令
os模块调用CMD命令有两种方式:popen与system可以执行指令,popen可以接受返回对象,这两个都是用当前进程来调用,os.popen()执行后,可通过read()得到返回值,可对返回值进行其他逻辑判断使用。os.system()执行后直接将返回值打印到控制台。subprocess.Popen()执行后得到返回值。执行ping命令可通过cmd命令执行,见上。易造成执行堵塞,并且提取比较繁琐。使用pythonping模块,os模块的下ping的方式,无堵塞现象,并且易于提取。原创 2022-12-29 17:47:41 · 1200 阅读 · 3 评论 -
python-爬虫之随机生成请求头User-Agent、验证码识别
生成随机的User-Agent出现 BUG,一般禁用浏览器缓存问题即可(参数use_cache_server=False)安装库: pip install fake_useragent。安装库:pip install ddddocr。原创 2022-09-14 16:56:26 · 591 阅读 · 1 评论 -
Fiddler抓包
目录web数据抓取数据抓取问题工具栏常用设置Session会话窗口Inspectors标签页Filters过滤选择器断点查找信息Find查找命令行查找手机app抓包设置步骤抓包实例官方下载地址:https://www.telerik.com/fiddlerweb数据抓取数据抓取问题抓取不到谷歌浏览器数据在浏览器高级设置中关闭使用谷歌代理,显示为关闭状态即可只能抓取http协议的数据,抓取不到https协议的数据解决方..原创 2021-01-31 09:06:27 · 169 阅读 · 0 评论 -
requests库下载图片
import requestsfrom urllib import parseimport tracebackimport reimport osclass DownloadImg: def __init__(self): self.img_name = input('请输入需要下载的图片关键字:') self.url_bing = 'https://www.bing.com/images/async?q={}&first={}&cou.原创 2020-12-24 21:07:27 · 270 阅读 · 0 评论