Python
谷震平
这个作者很懒,什么都没留下…
展开
-
Python篇----正则表达式语法(基础)
wak e原创 2015-11-17 07:57:52 · 1240 阅读 · 0 评论 -
文本挖掘----基于OCR的文档关键字提取
前言做了一段时间的OCR,把大量的图片、PDF处理成了文本。请注意:这些文本在互联网上属于稀有资源。这些文本以前都放在一个盒子里,如今,用OCR做钥匙打开盒子。取出东西,是好是坏也没人知道。但是,总得取出来看看。所以,Text Mining就有了用处。我们把这些稀缺数据拿来挖一挖。万一挖到宝了,可就发了。。。数据可视化后,你将得到这样的结果: 别高兴,我讲给你列出一堆坑。。。。在自己的微信公众号上原创 2016-04-16 22:41:21 · 10963 阅读 · 0 评论 -
OCR----Python调用Tesseract引擎(Ubuntu下)
前言 最近再搞OCR的,用于识别日文报刊,是公司的一个日本项目,做的我是苦不堪言。最近把自己的工作内容写出来,也会做一个系列和专栏,欢迎关注! 想搞好这个OCR,需要读论文。好在只需要读4篇,都是Tesseract的作者Ray Smith写的。Tesseract目前被Google维护并开源,以后的前景应该会非常好。原创 2016-03-30 17:51:47 · 12986 阅读 · 4 评论 -
Python篇----面向对象程序设计(三)(继承篇)
1 继承的详述 (1)继承,是一个类A(通过继承)拥有另一个类B的所有方法(功能)。继承之后,类B叫做父类,它是被继承的:类A叫做子类,它拥有父类(类B)的所有方法(功能)。类A还可以继续添加自己的方法(功能)。 单继承,类A 只继承一个类,它只有一个父类。 多继承,类A继承两个以上的类,它有多个父类。 (2)Python代码实现#构原创 2015-11-28 10:28:42 · 1104 阅读 · 0 评论 -
Python篇----面向对象程序设计(二)(属性和方法篇)
1 属性与方法的详述 (1)方法是对象(类的实例化)所拥有的一些功能。例如,对象bad_man(坏男人)的方法是打女人,对象good_man(好男人)的方法是保护女人。 属性,经常和方法混淆来讲,但是区别很大:属性是静态的概念,方法是动态的概念属性代表对象的数据,方法代表对象的操作 (2)属性的创建,代码如下:#构建类原创 2015-11-28 09:47:18 · 1271 阅读 · 0 评论 -
Python篇----多线程1TB数据生成脚本
0 前言Sorry,我骗了你!!!“多线程”,在Python中就是鸡肋,我只是想得到很多份1TB数据文件而已。“1TB数据”,这个大小是可以改的,生成1G,1M的数据随便都行。数据,目前只是随机数。这种随机数是伪随机数,有一个规律的,网上有解释,可以自行百度。“脚本”,这真的是个Python脚本。。。。。提示:我在小学弟的电脑上开了8个线程去跑,结果,他的CPU快到100摄原创 2016-01-30 11:40:14 · 2541 阅读 · 0 评论 -
Python篇----提供pip和virtualenv的Uranium之介绍(翻译篇)
原文链接:Uranium: a Python Build System http://uranium.readthedocs.org/en/latest/index.html0 前言 国内关于Uranium的资料还是比较少的,所以特别翻译一下。同时也是因为有个开源项目Cura(Ultimaker开发的3D切片软件)用到了这个框架,所以我也要研究一番。不知道这篇blog的有效翻译 2016-02-27 18:24:06 · 2067 阅读 · 2 评论 -
Python篇----命令行调用、输出log日志并打包的脚本
一 前言这个脚本不够健壮,只是我个人使用,处理一些大数据的业务。分享给大家,不要乱玩,会玩坏的。。。大家看看思路就好了。该脚本将输出今天的log文件内容。如果log文件是今日新建的,日志内容将会放在里面。如果不是,就会将存储位置下的.log文件打成 .tar.gz 包。同时以当日时间作为log文件的名称(前缀程序会给你补上),再放入log日志内容,最后存储在用户输入的路径下。原创 2016-01-11 17:00:32 · 10860 阅读 · 0 评论 -
Python篇----面向对象程序设计(一)(类和对象篇)
1 概述 简称:OOP(Oriented Object Programming)。这是一种以构建对象,编程实现为方向的语言。现实世界中,许多问题过于复杂,需要拆分,所以用不同的对象代替各个不同的部分。对象,是物理世界到逻辑世界(计算机世界)的一种映射关系。在编程实现的过程中,需要逻辑清晰,否者无法模拟现实世界中的实际运作过程。OOP中,有个理念----“万物皆对象”,彰显这门设计哲学的实原创 2015-11-24 23:41:49 · 3927 阅读 · 0 评论 -
Python篇----Requests获取网页源码(爬虫基础)
1 下载与安装见其他教程。 2 Requsts简介 Requests is an Apache2 Licensed HTTP library, written inPython, for human beings.Python’s standard urllib2 module provides most ofthe HTTP capabilities you need,...原创 2015-11-18 08:11:40 · 89140 阅读 · 1 评论 -
高阶Python----常用的数据结构与算法
前言高阶Python系列文章是笔者想要突破自己目前的技术生涯瓶颈而作,不具有普适性。本文主要是介绍Python在数据结构和算法中常用的函数。这也是数据分析领域必备知识点。也不是特地为了某些读者而作,想着提高自己的同时,能方便他人就更好了。懂分享的人,一定会快乐!常用的四个模块应该是:collections,heapq,operator,itertools。其中,collections是日常工作中的重原创 2017-02-12 21:27:27 · 6229 阅读 · 1 评论