Python
文章平均质量分 72
KFPA
从事软件开发工作
展开
-
PDFMiner
今天由于某种原因需要将pdf中的文本提取出来,就去搜了下资料,发现PDFMiner是针对内容提取的,虽然最后发现pdf里面的文本全都是图片,就没整成功,不过试了个文本可复制的那种pdf文件,发现还是蛮好用的 。PDFMiner----python的解析器和分析器1.官方文档: http://www.unixuser.org/~euske/python/pdfmine转载 2017-11-28 14:23:02 · 4644 阅读 · 1 评论 -
C++调用Python浅析
环境VS2005Python2.5.4 Windows XP SP3 简述一般开发过游戏的都知道Lua和C++可以很好的结合在一起,取长补短,把Lua脚本当成类似动态链接库来使用,很好的利用了脚本开发的灵活性。而作为一门流行的通用型脚本语言Python,也是可以做到的。在一个C++应用程序中,我们可以用一组插件来实现一些具有统一接口的功能,一般插件都是使用动态链接库实现,如果插件的转载 2017-11-10 17:42:47 · 261 阅读 · 0 评论 -
详解Python的Twisted框架中reactor事件管理器的用法
这篇文章主要介绍了详解Python的Twisted框架中reactor事件管理器的用法,Twisted是一款高人气的异步Python开发框架,需要的朋友可以参考下铺垫在大量的实践中,似乎我们总是通过类似的方式来使用异步编程:监听事件事件发生执行对应的回调函数回调完成(可能产生新的事件添加进监听队列)回到1,监听事件因此我们将这样的异步模式称为Reactor模式,原创 2017-09-06 10:00:02 · 1445 阅读 · 0 评论 -
python ctypes 探究 ---- python 与 c 的交互 近几天使用 python 与 c/c++ 程序交互,网上有推荐swig但效果都不理想,所以琢磨琢磨了 python 的 ct
python ctypes 探究 ---- python 与 c 的交互近几天使用 python 与 c/c++ 程序交互,网上有推荐swig但效果都不理想,所以琢磨琢磨了 python 的 ctypes 模块。同时,虽然网上有这方面的内容,但是感觉还是没说清楚。这里记录下来做备用,同时也给广大 python with c/c++ 派留给方便。如果你觉得我写的不好,可以参考官方转载 2017-08-23 14:45:15 · 800 阅读 · 0 评论 -
selenium的常见异常
selenium的常见异常Exceptions(异常)Python 自带的异常,所有异常的基类。异常: selenium.common.exceptions.ElementNotSelectableException(msg=None, screen=None, stacktrace=None)依据: selenium.common.exception转载 2017-08-15 16:31:31 · 19608 阅读 · 1 评论 -
学python爬虫的打怪升级之路
学python爬虫的打怪升级之路,以下是我学python爬虫的打怪升级之路,过程充满艰辛,也充满欢乐,虽然还未打倒大boss,但一路的风景就是最大的乐趣,不是么?希望大家能get到想要的东西!多图预警!<img src="https://pic4.zhimg.com/55e8bc9324234bc88b354821ce005bc3_b.png&q转载 2017-07-26 11:35:26 · 759 阅读 · 0 评论 -
python入门
“入门”是良好的动机,但是可能作用缓慢。如果你手里或者脑子里有一个项目,那么实践起来你会被目标驱动,而不会像学习模块一样慢慢学习。另外如果说知识体系里的每一个知识点是图里的点,依赖关系是边的话,那么这个图一定不是一个有向无环图。因为学习A的经验可以帮助你学习B。因此,你不需要学习怎么样“入门”,因为这样的“入门”点根本不存在!你需要学习的是怎么样做一个比较大的东西,在这个过程中,你会很快地学会需要学转载 2017-07-26 11:38:29 · 708 阅读 · 0 评论 -
Scrapy介绍
Scrapy介绍Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。抓取网页的一般方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加入到转载 2017-07-26 11:13:14 · 1083 阅读 · 0 评论 -
URL标准化 – Canonicalize
URL标准化,英文全称为URL Canonicalize。什么是URL标准化通俗的说,就是将你的页面URL唯一化。导致页面URL多样化的原因有很多,主要包括包含WWW及不含WWW,动态页面及伪静态技术,302的临时重定向,一些JS或者Meta跳转等等。这些因素最基础的影响就是让搜索引擎无所适从,到底哪个URL才是你要使用的?所以就产生了URL标准化的概念。另一方面,一些原创 2017-08-17 17:22:46 · 2631 阅读 · 0 评论 -
pycharm快捷键及一些常用设置
pycharm快捷键及一些常用设置1、编辑(Editing)Ctrl + Space 基本的代码完成(类、方法、属性)Ctrl + Alt + Space 快速导入任意类Ctrl + Shift + Enter 语句完成Ctrl + P 参数信息(在方法中调用参数)Ctrl + Q 快速查看文档Shift + F1 外部文档Ctrl + 鼠标 简介原创 2017-07-25 16:43:45 · 648 阅读 · 0 评论 -
基于scrapyd爬虫发布总结
一、版本情况python以丰富的三方类库取得了众多程序员的认可,但也因此带来了众多的类库版本问题,本文总结的内容是基于最新的类库版本。1、scrapy版本:1.1.0D:\python\Spider-master\ccpmess>scrapy version -vScrapy : 1.1.0lxml : 3.6.0.0libxml2 : 2.9.0转载 2017-08-16 14:51:12 · 2268 阅读 · 0 评论