python 爬虫-滑块验证码反爬(腾讯防水墙滑块验证码)

相应页面(http://glidedsky.com/level/web/crawler-captcha-1) 题目要求: 先看看页面: 当我们一打开页面,就是出现滑块验证码页面,我们所要的数字参数是没有的。 再看看滑动之后的页面。 很明显,当滑块验证通过之后,数字就会...

2019-08-20 10:54:29

阅读数 8

评论数 0

python 爬虫-CSS反爬

相应页面(http://glidedsky.com/level/crawler-css-puzzle-1): 题目要求: 再看看页面: 分析这个页面的特点: 页面显示出来的数据不同 页面中部分显示的数据可能在标签中不显示 页面中出现数字顺序是乱的,不好组合拼接,如第3个...

2019-08-16 17:02:27

阅读数 6

评论数 0

python 爬虫-字体反爬

先推荐一个爬虫工程自我检验网站。http://glidedsky.com/ 相应页面(http://glidedsky.com/level/crawler-font-puzzle-1): 题目要求: 再看看页面: 很明显,当我们通过请求时,页面压根就不对,其实这里已经把数据...

2019-08-16 16:05:25

阅读数 10

评论数 0

图像验证码识别(两种方式)

准备库: PIL pytesseract PIL:用于处理验证码图片 pytesseract:用于识别图片文字 准备工具: Tesseract Ocr 下载地址 http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-...

2019-08-14 17:22:41

阅读数 21

评论数 0

python 谈谈可变对象与不可变对象

前言: 先说说本文中可能使用到的方法吧,也是常用的! id():返回变量的内存地址; type():返回变量的类型; ==:变量的比较(侧重于值); is :变量的比较(侧重于内存); 本文可能涉及到内存。可以去看看我的以前写的垃圾文章,或许对您有帮助。 https://blog...

2019-08-02 10:25:32

阅读数 8

评论数 0

python is_integer()

有一次看到一段代码: # -*- coding: utf-8 -*- # @Time : 2019/6/12 10:12 # @Author : hccfm # @File : t2.py # @Software: PyCharm import math def prim...

2019-07-12 08:54:31

阅读数 67

评论数 0

scrapy-redis 分布式空跑问题,数据爬完之后程序没有停下来。

问题描述: scrapy-redis在数据爬完之后,发现根本没有停下来,程序没有结束,一直在运行。那么我们如何让它跑完之后就关闭掉呢??? 如下图: 问题分析: 在使用scrapy-redis时,redis中队列 xxx:requests在不停执行添加与删除操作。那当xxx:req...

2019-06-21 17:33:41

阅读数 40

评论数 0

scrapy 分布式性能优化(布隆过滤器对接)

布隆过滤器原理:略 在平时使用scrapy分布式时,当我们爬取海量数据时,要考虑到内存的问题。那么如何优化呢? 假设一个1亿个url,使用内存是2GB,那么我们使用的布隆过滤器则用几百MB就行了。 我写不知道怎么说,上代码吧。 原理代码(可以看看): # -*- coding: utf...

2019-05-27 15:06:43

阅读数 32

评论数 0

pycharm 多行一起编写,一个很实用的方式

按住alt +点击 例子: 试试效果 >>>>>>>>>>>>>> ...

2019-05-23 09:17:36

阅读数 248

评论数 0

关于python3 mysql问题

今天在别人代码在我的电脑是运行时,发现导入错误。 百度之后才知道 python2运用于 MySQLdb python3运用于mysql.connector或者 pymysql 安装时,单独安装mysql是没用的,导入时还是错误 应该直接安装 pip install mysql.conne...

2019-05-20 09:13:07

阅读数 12

评论数 0

python 安装pyautogui 失败问题

首先感谢xianyirenx博主帮我解决这个问题, 安装: pyautogui 时,总是出现以下错误。后面找了好久资料才解决 Requirement already satisfied: pyautogui in d:\python\python36\lib\site-packages\py...

2019-05-06 16:29:20

阅读数 109

评论数 0

python unicode转中文

如: str = '\\u5927\\u77f3\\u8857\\u9053\\u690d\\u6751\\u4e09\\u8def\\u56db\\u5df79\\u53f7' 使用:str.encode('utf-8').decode('unicode_escape') str.enc...

2019-04-29 10:06:00

阅读数 719

评论数 0

python BloomFilter(布隆过滤器)

简单解释下。 bloomfilter:是一个通过多哈希函数映射到一张表的数据结构,能够快速的判断一个元素在一个集合内是否存在,具有很好的空间和时间效率。(典型例子,爬虫url去重) 原理: BloomFilter 会开辟一个m位的bitArray(位数组),开始所有数据全部置 0 。当一个元...

2019-04-19 01:27:02

阅读数 203

评论数 0

python实现字符串的倒序(五种)

今天看到一个面试题,说实现一串字符串的倒序。如:“abcde" --> "edcba" 使用python的特性 s = "abcde" def str_reverse1(s): return s[::-1] i...

2019-03-14 20:00:00

阅读数 107

评论数 0

python元素内存地址分配

前几天在看numpy与pandas时,看到一些数据的存储问题,个人很好奇。然后综合以前的知识与笔记复习一下,个人觉得不错。特来分享一下。。。 这里说三种数据的存储:非引用类型,引用类型,类。 非引用类型: 小整数,如:1,2,3,4,5,6..... 在python中,小整数类型都有一个特...

2019-03-10 23:43:53

阅读数 123

评论数 0

python爬虫:HTTP基本接入认证(HTTP basic access authentication)

今天在网络数据采集时,看到一个很有意思的网络爬虫,以前写到过许多爬虫都没有遇到过。做个记录写下来吧   HTTP基本接入认证: 在发明cookie之前,处理网站登录最常用的方法就是用HTTP基本接入认证,例如用来测试网站:http://pythonscraping.com/pages/aut...

2019-01-18 01:29:52

阅读数 406

评论数 0

高级编程:验证函数接收参数类型(装饰器)

在编程中,如对函数的接收类型,有要求,比如: def add(x, y): return x + y if __name__ == '__main__': x = add(2,3) print("x=",x) 我们一看,就知道,这...

2019-01-14 19:54:27

阅读数 67

评论数 0

python导入tensorflow模块 出现 ImportError: DLL load failed: 找不到指定的模块

今天编程导入 tensorflow 时,发现出现下面错误。 ImportError: DLL load failed: 找不到指定的模块 刚开始百思不得其解,后面去了网络上查找。发现各种各样的方法。 首先,重装了一个pillow库。发现无法解决。 然后看了是不是版本问题,发现也无法解决问...

2019-01-10 20:20:49

阅读数 1550

评论数 0

docker随笔

前些天,电脑系统重新装了下,各种库都要重装下,在安装数据库时,听大学同学说,对于这些东西不如使用docker安装。 刚开始,还不知道docker不知是用来干嘛的,后面看了些资料与同学的解说,也算了解了一些。 什么是docker? 这里不作多解析,网络上有很多。推荐一位大佬的文章,个人感觉非...

2019-01-09 21:36:27

阅读数 90

评论数 0

python发送邮件(SMTP)

SMTP:简单邮件传输协议。 在python中有两个模块用来处理邮件的发送:email、smtplib email:用来构建邮件。 smtplib:用来发送已构建好的邮件。 邮件头构建: from email.mime.multipart import MIMEMultipart me...

2019-01-03 22:02:59

阅读数 26

评论数 0

提示
确定要删除当前文章?
取消 删除