自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 资源 (2)
  • 收藏
  • 关注

原创 字节爬虫面试算法记录

示例:version1 = "3.4", version2 = "4.3"。version2迭代次数 大于 version1迭代次数,result=1。解释:代表第一个版本的第一次迭代。

2023-09-14 16:32:14 1125

转载 使用系统代理在Pycharm中无法发起请求

更新urllib版本为 1.25.11: pip install urllib3==1.25.11。应该避免在使用抓包工具或代理的同时发起请求, 如果你就是有这种需求, 那就更改ide代理配置。

2022-08-30 14:43:02 1593 2

原创 pymongo.errors.ServerSelectionTimeoutError

raise ServerSelectionTimeoutError(pymongo.errors.ServerSelectionTimeoutError: No replica set members available for replica set name "None", Timeout: 30s, Topology Description: <TopologyDescription id: 6215e06aa0ff1c7437099f3e, topology_type: ReplicaS..

2022-02-23 16:24:12 4169 2

原创 摆正图片验证码破解

拖动滑块, 使其角度摆正. 如下有个想法:找到图库所有的原图, 不论角度 恢复到摆正后的角度 将每张图片旋转360度, 每旋转一次保存一张图片 将需要旋转的图与已保存的360张图作对比, 即可找出旋转角度问题:目前下载了6000张原图, 需要对比后找出所有重复的图片 图片对比通过三色值还是算法特征? 三色值的话, 每张图片要对比整个图库, 计算量惊人 算法真香~其他:js对这个验证码的校验: 360-旋转角度, 加上其他参数(这一步已经破解)之后有进展再补充~.

2020-10-15 20:56:44 2552 3

原创 python selenium禁止加载某些请求

python selenium 请求时间太长问题描述解决方案最终效果问题描述通过selenium请求目标网站时候, 真实数据(我这里是验证码图片)已经加载出来, 由于网站做了第三方上报所以得等待很久, 但是上报这个请求不是必须的.例如验证码已经加载完成, 但是huatuo.qq.com响应时间过长 , webdriver.get()的机制是等待请求的url响应全部完成才进行下一步. 显示等...

2020-04-26 12:49:24 7828 5

原创 Pycharm同时运行同一文件多次

在run 中打开edit configurations. 弹出窗口的右上角“allow parallel run” 保存即可

2020-03-24 09:10:22 3871 1

转载 使用selenium 接管 已打开的浏览器

在使用selenium进行自动化测试中我们有时会遇到这样的情况: 我们需要手动打开浏览器,进入到所需的页面,执行一些手动任务,如输入表单、输入验证码,登陆成功后,然后再开始运行自动化脚本。这种情况下如何使用selenium来接管先前已打开的浏览器呢?这里给出Google Chrome浏览器的解决方案。我们可以利用Chrome DevTools协议。它允许客户检查和调试C...

2019-12-11 15:52:15 12043 6

原创 检测某个域名所属服务器及地址

假如想要知道百度所属服务器位置:在命令行ping该地址在此网站搜索对应ip

2019-09-20 10:55:00 782

原创 python3 + webdriver, page_source无法获取源码等问题

在尝试抓取某眼查,配置chrome options时候,如果添加了headless则拿不到源码.而不加就可以.不加(无头模式)的源码:<html><head><title>403 Forbidden</title></head><body bgcolor="white"><h1>403 Forbidd...

2019-05-15 10:26:57 6137 9

原创 Mongodb查询列表几种常用方法

对于数组操作可以直接用"."来表示取第几个元素查询 sub_tag 长度为 3 的数据db.getCollection('test').find({$where: "(this.sub_tag.length == 3)"})db.getCollection('test').find({"sub_tag": {$size: 3}}) 查询tags的长度为5的数据d...

2018-11-20 16:23:12 4076

原创 Python打开excel异常: XLRDError: Unsupported format, or corrupt file: Expected BOF record;...

通常是数据本身有问题, 建议检查一下数据格式是否规整. 例如: 第1列中, 你以为是ISO(时间格式), 并对他进行了格式转换, 但是其中有一条数据是int型或者其他, 所有就会报这个错误.对于文件本身. 可以看下打开文件时候会不会说文件已损坏, 或者设置什么打开格式之类的也可以保存默认格式, 然后再通过xlrd.open_workbook打开路径可以试一下。其他问题欢迎讨论解决...

2018-08-30 14:23:50 61104

原创 Mongodb无法连接本地数据库

1. 命令行连接127.0.0.1 或者localhost时: 报超时错误(貌似是5000ms)2. Robo 3T 连接本地(127.0.0.1:27017)错误原因:没有找到mongodb服务相关的文件(命令行中可以看到错误提示)解决:在mongodb安装的磁盘根目录创建data/db两个文件夹(因为系统会从根目录开始检测有没有默认可以放mongodb服务相关文件的地方), 没...

2018-07-13 16:25:37 6072

原创 python matplotlib 绘图入门

今天来学习一下matplotlib库的用法。对于中文显示异常(我用的py3),下文有很好的解决办法。学习过程推荐使用 ipython --pylab 或者 ipython notebook。因为他们具有很强的交互性、数据记录的能力。目的:通过饼状图显示约15000份数据中的公司占比从最简单的来吧:import matplotlib.pyplot as pltplt.pie(x=[10, 20,

2018-01-18 11:20:25 1233

需要摆正的滑块原图, 约6000张

6000张滑块原图, 做完分类, 去重

2020-10-15

整理后的搜狗词库, 带两级标签, txt

爬取的搜狗词库, 有两级标签. 过滤了一部分重复和内容极少的文本.

2018-11-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除