python
文章平均质量分 80
Levy_96
这个作者很懒,什么都没留下…
展开
-
抓取国家统计局区划、城乡划分代码的简易python爬虫实现
抓取国家统计局区划、城乡划分代码的简易python爬虫实现免责声明本篇文章仅用于学习交流,并不针对任何网站、软件、个人。概要说明本篇文章介绍一个简易python爬虫的开发,对国家统计局区划、城乡规划代码进行抓取。 所谓简易,一方面是因为是单线程爬虫,不涉及python的多进程、多线程编程,另一方面是因为不包括“URL管理器”的模块(负责存储已爬取、未爬取的url序列,控制爬虫不多爬、不漏爬),而是原创 2017-05-26 16:51:22 · 6369 阅读 · 2 评论 -
关于Selenuim Webdriver查找可能不存在的页面元素的问题
在Webdriver的很多使用场景下,需要去判断页面上是否出现某个元素,例如提交登录后判断是否有错误信息。此时有两种情况:1.登录失败,有错误信息;2.登录成功,无错误信息。在第一种情况下,通过webdriver的find系列方法肯定能获取到错误信息,但是在第二种情况下,让webdriver去查找一个不存在的页面元素就会出现问题。原创 2017-12-14 14:59:59 · 2277 阅读 · 0 评论 -
Python2.7实现PDF转图片需求
文章目录环境安装Mac环境Linux环境Windows环境代码实现注意事项环境安装PDF转IMG需要两个Python模块:PyPDF2(1.26.0)和Wand(0.4.4),其中Wand安装前需要先安装软件ImageMagick,由于7.xx版本的接口改变,必须安装6.xx版本,以及GhostScript。PyPDF2和Wand可以直接使用pip安装,主要两个软件以及环境配置需要根据系统环境...原创 2018-10-25 14:44:41 · 1975 阅读 · 5 评论 -
python图形验证码识别
前言思路对图像进行灰度化、二值化处理根据图像特征进行切割,提取单个字符内容针对单个字符进行机器学习识别实践环境安装图像预处理 - 灰度、二值化首先用PIL内置的convert方法进行灰度处理,经过灰度后,每个像素点的颜色值从RGB的3维变成了1维,值的范围为0-255,值越大,颜色越倾向于白,或者说颜色更淡。观察灰度后的图片,可以发现字符的颜色更深,背景、干扰线的颜色更浅...原创 2018-10-25 16:04:38 · 1407 阅读 · 0 评论 -
python+selenium如何调用IEDriver添加代理
前言对于一个合格的爬虫来说,代理IP是不可缺少的组成部分。说来惭愧,我们公司一些基于IEDriver的爬虫在很长一段时间中都是在没有使用代理的状态下运行的。给IE浏览器配置代理的常规方法设置的是全局代理,势必会影响到运行在同一台机器上的不同爬虫进程,而我们没有找到能够给IEDriver配置单进程代理的方法,相对而言ChromeDriver就省心很多了。关于IEDriver的使用以及代理设置的资...原创 2018-11-02 16:51:20 · 2505 阅读 · 3 评论 -
ImportError: No module named *** 问题?——理解绝对导入和相对导入
文章目录前言解决 ImportError: No module named ***如何使用相对导入from __future__ import absolute_import应该用绝对导入还是相对导入?前言Python 开发者一定对ImportError: No module named ***这个报错不陌生,特别是对于初学者来说,代码在本地 PyCharm 中运行得好好的,一放到服务器上用命...原创 2019-01-24 19:35:33 · 15411 阅读 · 2 评论 -
从 cached_property 理解描述符
疑问产生首先,运行取自Daniel Roy Greenfeld的文章 cached-property: Don’t copy/paste code 的一段代码:import timeclass cached_property(object): def __init__(self, func): self.__doc__ = getattr(func, '__doc...原创 2019-01-28 15:43:07 · 802 阅读 · 0 评论