自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

marck_pen的博客

一个在逗比的世界里迷路的程序猿

  • 博客(9)
  • 收藏
  • 关注

原创 反爬机制之验证setcookie

反爬表现在使用python或rust进行爬虫的时候的有时会遇到请求返回一段含有只含有js代码的html页面如图:分析及优化文件首先解决转义字符\x63\x73\x4b\x48\x77\x71\x4d\x49这种,转义字符可以通过print直接控制台打印出来,例如:可以看出\x63\x73\x4b\x48\x77\x71\x4d\x49就是csKHwqMI不过这样一个一个转...

2020-02-17 12:23:29 4501 4

原创 模拟登陆和模拟发帖,思路讲解和一个网站实例代码

大家好,事隔好几个月,终于又发帖,要说原因呢,那就是最近几个月公司项目准备上线都比较忙,没时间搞..话不多说~~来点干货~曾经在工作中,因为公司的需要,做过一会模拟登陆和模拟发帖的小项目,目的就是达到不需要人手动点击和输入,只需要定时直接把想发的内容写上去,加上账号密码就可以进行自动发帖.这样就可以有一个设想,可以事先建立一个账号密码的序列文件,格式可以随便采用,但是要能够自己利用代码...

2019-03-20 22:48:31 731

原创 进行模拟点击的时候,利用python完成黑名单和白名单(判断字符串是否包含)

在做项目的时候,遇到一个需求,就是在进行模拟点击的时候,要求加上一个黑名单和白名单意思就是:白名单:模拟点击的时候,不能点击白名单里面有的元素,例如:包含什么地址,或者什么数字和特殊的字符串的时候黑名单:就是不在黑名单里的元素,就不能进行点击事件,然后只有在里面的元素才能进行点击.---------------------------------------------------...

2018-11-30 12:10:22 1340

原创 关于python的线程和GIL全局锁的一些见解

GIL全局锁是:Python语言和GIL没有半毛钱关系。仅仅是由于历史原因在Cpython虚拟机(解释器),难以移除GIL.每个线程在执行的过程都需要先获取GIL,保证同一时刻只有一个线程可以执行代码。作用就是保证同一时刻只有一个线程可以执行代码,造成了我们使用多线程的时候无法实现并行. 关于多线程:在python中,虽然其中有threading模块,也可以进行调用,但创造出来的多线程...

2018-08-13 17:31:43 736

原创 如何通过Selenium调用PhantomJS

SeleniumSelenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。Selenium 自己...

2018-08-09 16:12:48 630

转载 破解滑块验证码

一.介绍一些网站会在正常的账号密码认证之外加一些验证码,以此来明确地区分人/机行为,从一定程度上达到反爬的效果,对于简单的校验码Tesserocr就可以搞定,如下但一些网站加入了滑动验证码,最典型的要属于极验滑动认证了,极验官网:http://www.geetest.com/,下图是极验的登录界面现在极验验证码已经更新到了 3.0 版本,截至 2017 年 7 月全球已有十六...

2018-08-09 15:59:06 10720 1

原创 数据清洗的基本思路分享(都是个人见解,欢迎补充)

首先抛出一个问题:爬取到数据到数据库之后,怎么进行数据清洗和进行去重上传的=============================解答一下=============================数据清洗:数据清洗概念就是去从,检查数据一致性,处理无效值和缺失值等)删除重复信息、纠正存在的错误.可以利用pandas模块(最常用的清洗模块)和正则或者numpy模块(机器学习),...

2018-08-09 10:54:14 5828

原创 异步与分布式在爬虫中的应用(个人理解)

异步:是一个非阻塞的运行模式,就是在运行主程序的时候,如果其中有了耗时操作,程序不会在这操作进行停留,而会继续执行下面的代码拓展:    其中普及一下:常见的阻塞形式有:网络I/O操作,磁盘的I/O操作,用户输入时候的阻塞.    在爬虫项目中,一般会使用异步进行爬取,从而提高运行效率,因为在发送请求以后,需要依靠网络通信来返回响应,其中肯定会涉及一些延时,这时候就可以进行异步跳过,在...

2018-08-09 10:47:01 824

原创 redis与mysql的区别和理论解释

我们首先先说一下mysql,mysql是可以持久化储存的关系型数据库,功能强大,既然涉及到储存那肯定要涉及到i/o操作(i/o操作就是输入(Input)和输出(Output)的意思)访问速度相较于非关系型数据会慢很多,为了解决这个问题,于是就出现了缓存机制,把一些访问频次高的数据缓存一部分到内存中,如果用户在访问网站的时候,首先先在缓存中查询,如果未命中,再去mysql中查询.所以如果是访问量不高...

2018-07-13 16:37:46 1493

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除