Python知识
reb0rn初代
弃疗吧
展开
-
PDF按页拆分为PDF单页或者图片
import base64import sysimport PyPDF2import fitz, os, datetimedef pdf_split(file_path, out_dir): """ 单个pdf按页拆分pdf @param file_path: 源文件路径(绝对路径) @param out_dir: 输出pdf目录文件夹(绝对) @return: 输出文件目录文件夹(绝对) """ pdf_file = open(file.原创 2021-08-10 10:09:49 · 606 阅读 · 0 评论 -
python3之格式化文件xml,json
1、结构化文件存储-xml,json-为了解决不同设备之间信息交换-参考资料--XML(extensibleMarkupLanguage),可以扩展标记语言 -标记语言:语言中使用尖括号括起来的文字字符串标记 -可扩展:用户可以自己定义需要的标记 -例如:<Teacher> 自定义标记Teacher 在...原创 2019-04-03 14:16:00 · 6324 阅读 · 0 评论 -
python3之协程、迭代器、生成器
1、协程-参考资料 -http://python.jobbole.com/86481/ -htttp://python.jobbloe.com/87310/ -http://segmentfault.com/a/1190000007816882、迭代器-可迭代(Iterable):直接作用于for循环的变量-迭代器(Ite...原创 2019-04-02 16:41:16 · 202 阅读 · 2 评论 -
python3之多进程全解、生产者消费者模型
1、线程代替方案-subprocess -完全跳过线程,使用进程 -是派生进程的主要替代方案 -python2.4后引入-multiprocessing -使用threading借口派生,使用子进程 -允许为多核或者多cpu派生进程,接口跟theading非常相似 -python2.6-concurre...原创 2019-04-01 22:32:21 · 999 阅读 · 0 评论 -
网络编程、TCP/UDP协议(/编程)、FTP编程、Mail编程
1、网络编程-网络-网络协议:一套规则-网络模型: -七层模型:物理层、数据链路层、网络层、传输层、会话层、表示层、应用层 -四层模型(实际应用):链路层、网络、传输层、应用层-每一层都有相应的协议负责交换信息或者协同工作-TCP/IP:协议族-IP地址:负责在网络上唯一定位一个机器 -IP地址分ABCDE类 ...原创 2019-04-06 22:56:03 · 847 阅读 · 1 评论 -
python爬虫之SSL、加密、破解有道词典加密算法并编写有道词典实时翻译
1、SSL-SSL证书就是指遵守SSL安全套阶层协议的服务器数字证书(SercureSocketLayer)-美国王景公司开发-CA(CertifacateAuthority)是数字证书认证中心,是发放、管理、废除数字证书的收信人的第三方机构-遇到不信任的SSL证书,需要单独处理解决以下错误:错误1:AttributeError: 'module' object has n...原创 2019-04-10 22:13:52 · 1092 阅读 · 0 评论 -
python3之多线程、共享变量、死锁问题
1、环境-xubuntu、anaconda、pycharm、python3.7-https://www.cnblogs.com/jokerbj/p/7460260.html-https://www.dabeaz.com/python/UnderstandingGIL.pdf2、多线程-程序:一堆代码以文本形式存入一个文档-进程:程序运行的一个状态 -包含地址...原创 2019-03-31 22:51:39 · 708 阅读 · 0 评论 -
Python3之面向对象(OOP)全解上(类与对象、关于self、面向对象三大特性等)
1、类中内容:应该具有两个内容表明事物的特征、叫做属性(变量) 表明事物功能或动作,称为成员方法(函数)2、类的基本实现类的命名方法 遵守变量命名规范 大驼峰(由一个或者多个单词构成,每个单词首字母大写,单词跟单词直接相连) 尽量避开跟系统命名相似的命名 如何声明一个类 必须用class关键字 类由属性和方法构成,其他不允许出现 成员属性定义可以直接使用变量...原创 2019-03-23 22:39:58 · 395 阅读 · 0 评论 -
python3之高级函数zip、enumerate、collections(namedtuple、deque、defaultdict、Counter)
1、zip-把两个可迭代内容生成一个可迭代的tuple元素类型组成的内容l1 = ["wang","haha","kaka"]l2 = [34,24,11]z = zip(l1,l2)print(z)print(type(z))for i in z: print(i)运行:<zip object at 0x00000233453779C8><...原创 2019-03-30 21:13:21 · 180 阅读 · 0 评论 -
python之正则表达式、XPath
正则表达式(RegularExpression,re)1、作用:-是一个计算机科学的概念-用于使用单个字符串来描述、匹配符合某个规则的字符串-常常用来检索,替换某些模式的文本2、正则的写法-.(点号):表示任意一个字符,除了\n,比如查找所有的一个字符\-[ ]:匹配中括号中列举的任意字符,比如:[L,Y,0],LLY,Y),LIU-\d:任意一个数字-\D:除...原创 2019-04-05 11:06:24 · 1101 阅读 · 0 评论 -
python3之面向对象全解(下)(类相关函数、类的常用魔术方法、实例/静态/类方法、抽象类、自定义类等)
1、类相关函数issubclass:检测一个类是否是另一个类的子类 isinstance:检测一个对象是否是另一个类的实例 hasattr:检测一个对象是否有成员xxx getattr:get attribute setattr:set attribute selattr:delete attribute dir:获取对象的成员列表2、类的成员描述符(属性)类的成员描述...原创 2019-03-28 22:44:52 · 210 阅读 · 0 评论 -
python爬虫之使用cookie爬取登录后的界面、使用cookieFileJar保存cookie文件、cookie读取
1、cookie & session简介-由于http协议的无记忆性,人们为了弥补这个这个缺憾,所采用的一个补充协议-cookie是发放给用户(即http浏览器)的一段信息(通常记录用户身份),session是保存在服务器上的对应的另一半信息,用来记录用户信息(1)cookie和session的区别-存放位置不同-cookie不安全-session会保存在服务器上一...原创 2019-04-09 22:46:06 · 1020 阅读 · 0 评论 -
python爬虫之Scrapy框架原理及操作实例详解、股票数据Scrapy爬虫
爬虫框架-scrapy、pyspider、crawley等Scrapy框架1、scrapy框架介绍 -https://doc.scrapy.org/en/latest/ -http://scrapy-chs.readthedocs.io/zh_CN/latest/index.html-安装:利用pip或conda2、scrapy概述及原理...原创 2019-04-19 17:14:10 · 797 阅读 · 0 评论 -
python爬虫之验证码识别及TesseractNotFoundError:tesseract is not installed or it's not in your path问题解决
验证码问题1、验证码:放置机器人或者爬虫2、分类-简单图片-极验,官网:www.geeetest.com-12306-电话-google验证3、验证码破解-运用方法: -下载网页和验证码 -手动输入验证号码-简单图片 -使用图像识别软件或者文字识别软件 -可以使用第三方图像验证码破解网站...原创 2019-04-17 21:13:43 · 625 阅读 · 0 评论 -
python爬虫之动态HTML、Selenium详解、Selenium3.141+PhantomJS / chrome / firefox66+webdriver / gecodriver配置问题全解
动态HTML1、爬虫与反爬虫俱进~2、动态HTML介绍-JavaScript-jQuery-Ajax-DHTML-Python采集动态数据 -从Javascript代码入手采集 -Python第三方库运行JavaScript,直接采集在浏览器看到的页面3、Selenium + PhantomJS(1)Selenium:WE...原创 2019-04-17 18:33:14 · 1000 阅读 · 0 评论 -
python爬虫之Requests
Requests-HTTP for Humans更简洁更友好-继承了urllib的所有特征-底层使用的是urllib3-开源地址:https://github.com/requests/requests-中文文档:http://docs.python-requests.org/zh_CN/latest/iindex.html-安装:conda install request...原创 2019-04-14 22:26:42 · 165 阅读 · 0 评论 -
python爬虫之数据提取、正则表达式、xml、XPath、etree、CSS选择器 BeautifulSoup4
1、页面解析和数据提取简介(1)结构数据:先有的结构,再谈数据 -JSON文件 -JSON Path -转换成python类型进行操作(json类) -XML文件 -转换成python类型(xmltodict) -XPath ...原创 2019-04-16 18:35:56 · 10143 阅读 · 0 评论 -
Python爬虫之UserAgent和常见浏览器UA值总结、Proxy代理IP、隐藏地址
-UserAgent -UserAgent:用户代理,简称UA,属于heads的一部分,服务器通过UA来判断访问者身份 -常见的UA值,使用的时候可以直接复制粘贴,也可以用浏览器访问的时候抓包windows10 下各浏览器userAgent浏览器 userAgentChrome Mozilla/5.0 (Windows NT 10.0...原创 2019-04-08 21:17:03 · 4392 阅读 · 0 评论 -
python爬虫(Spider)之(使用urlopen、response简介、chardet检测编码、urllib之requests、error、parse|爬虫实现百度翻译)
准备工作-参考资料 -python网络数据采集,图灵工业出版 -精通Python爬虫框架Scrapy,人民邮电出版社 -[Python3网络爬虫]http://blog.csdn.net/c406495762/article/details/72858983 -[Scrapy官方教程]http://scrapy-c...原创 2019-04-07 23:05:54 · 582 阅读 · 0 评论 -
python3之模块、包、命名空间
1、模块一个模块就是一个包含python代码的文件,后缀名是.py就可以,模块就是个python文件 为什么用模块? 程序太大,需要拆分,维护方便 模块可以增加代码重复利用的方式 当命名空间使用,避免命名冲突 如何定义模块? 模块就是一个普通文件,所以任何代码可以直接书写 不过根据模块的规范,最好在模块中编写一下内容 函数(单一功能) 类(相似功能的组合 或者...原创 2019-03-30 16:53:07 · 462 阅读 · 0 评论 -
python3之数据格式化和处理
数据组织的维度1、一维数据由对等关系的有序或无序数据构成,采用线性方式组织3.1413,3.1398,3.1403,3.2411-对应列表、数组和集合等概念2、二维数据由多个一维数据构成,是一维数据的组合形式-其中,表格是典型的二维数据,表头是二维数据的一部分3、多维数据由一维或二维数据在新维度上扩展形成4、高维数据仅利用最基本的二元关系展示数据间的复杂...原创 2019-03-13 16:12:53 · 835 阅读 · 0 评论 -
python的组合数据类型详解(集合、字符串、元组、列表、字典)
集合类型及操作1、集合类型的定义集合是多个元素的无序组合-集合类型与数学中的集合概念一致,集合元素之间无序,每个元素唯一,不存在相同元素-集合元素不可更改(???不太明白表达的是什么),不能是可变数据类型-集合用大括号{}表示,元素之间用逗号隔开-建立集合类型用{}或set(),建立空集合类型,必须使用set()A={"python",123,("python",12...原创 2019-02-28 21:10:11 · 1170 阅读 · 0 评论 -
time库的使用(Python)文本进度条
1、time库是Python中处理时间的标准库-计算机时间的表达-提供获取系统时间并格式化输出功能-提供系统级精确计时功能,用于程序性能分析import timetime.<b>() 2、time库包括三类函数 时间获取:time() ctime() gmtime() 时间格式化:strftime() strptime()程序计时...原创 2019-02-13 22:38:47 · 367 阅读 · 0 评论 -
代码复用和函数递归 python
1、代码复用 把代码当成资源进行抽象,函数 和 对象 是代码复用的两种主要形式函数:将代码命名在代码层面建立了初步抽象对象:属性和方法 <a>.<b>和<a>.<b>()在函数之上再次组织进行抽象 函数 ——————————————————> 对象 ...原创 2019-02-28 10:24:17 · 245 阅读 · 0 评论 -
Python的random库
1、random库概述(1)random库是使用随机数的Python标准库-伪随机数:采用梅森旋转算法生成的(伪)随机序列中元素-random库主要用于生成随机数-使用random库:import random(2)random库包括两类函数,常用共8个基本:seed(),random()扩展随机数函数:randint(),getrandbits(),uniform(...原创 2019-02-17 22:33:12 · 458 阅读 · 0 评论 -
Python字符串类型及操作
1、字符串(1)字符串有 2类共4种 表示方法-由一对单引号或双引号表示,仅表示单行字符串 例:“请输入”或‘C’-由一对三单引号或三双引号表示,可表示多行字符串 "'Python 语言"'-如果希望在字符串中包含双引号或单引号呢?'这里有个双引号(")' 或者 "这里有个单引号(')"...原创 2019-02-11 22:43:47 · 1196 阅读 · 0 评论 -
Python3.7程序的循环结构
1、遍历循环遍历某个结构形成的循环运行方式for <循环变量> in <遍历结构>: <语句块>-由保留字for和in组成,完整遍历所有元素后结束-每次循环,所获得元素放入循环变量,并执行一次语句块2、遍历循环的应用(1)#计数循环(N)次for i in range(N): #可以不使用i <语句块...原创 2019-02-14 22:02:29 · 560 阅读 · 0 评论 -
Python程序的分支结构、异常处理
1、单分支结构根据判断条件结果而选择不同向前路径的运行方式if <条件>: <语句块>2、二分支结构if True: print("语句块1")else: print("语句块2")紧凑形式:适用于简单表达式的二分支结构<表达式1> if <条件> else <表达式2>g原创 2019-02-14 20:57:50 · 676 阅读 · 0 评论 -
python3之turtle库学习(例:蟒蛇的Python绘制)
蟒蛇的绘制Python:#PyhonDraw.pyimport turtleturtle.setup(650,350,200,200)turtle.penup()turtle.fd(-250)turtle.pendown()turtle.pensize(25)turtle.pencolor("purple")turtle.seth(-40)for i in range(4)...原创 2019-01-27 18:26:33 · 814 阅读 · 0 评论 -
Python的数据类型、运算操作及类型转换(整数、浮点数、复数等) 总
python中常见的数据类型:整型、浮点、布尔、字符串、列表、元组、集合、字典、空(None)等1、整数类型 与数学中整数的概念一致-可正可负,没有取值范围限制。pow(x,y)函数:计算,想算多大算多大-4种进制表示形式十进制:1010,99,-217二进制:0b或0B开头,0B101,-0b101八进制:以0o或0O开头,0o123,-0O456十六进制...原创 2019-01-31 19:55:48 · 6093 阅读 · 0 评论 -
python3认识及安装环境
1、认识Python(1)发展历史 版本选择python3.6是py3的最新版本,是python发展的趋势和未来py2和py3是不兼容的python2.7是最后一个py2的版本,在2020年将不再维护(2)就业方向WEB后端支持、爬虫、运维、数据分析、机器学习、人工智能、...(3)进阶语法基础:python、linux、数据库WEB全栈:前端、后端框架爬虫与...原创 2019-02-26 16:45:39 · 156 阅读 · 0 评论 -
Python3的函数的详解
1、函数的定义及调用y=f(x)函数是一段代码的表示def <函数名>(<参数(0个或多个)>) <函数体> return <返回值>库函数:input、print、type等计算n!def fact(n): s = 1 for i in range(1,n+1): s...原创 2019-02-26 21:09:49 · 503 阅读 · 0 评论 -
七段数码管的绘制 显示日期
1、问题分析:turtle ——>七段数码管绘制(时间等)2、基本思路-步骤一:绘制单个数字对应的数码管-步骤二;获得一串数字,恢只对应的数码管-步骤三:获取当前系统时间,绘制对应的数码管-使用time库获得系统当前时间-增加年月日标记-年月日颜色不同代码如下:import turtle,timedef drawGap():#绘制数码管间隔...原创 2019-02-27 11:52:05 · 2559 阅读 · 0 评论 -
Python3之从人机交互到艺术设计概览(图形用户界面、游戏开发、虚拟现实、图形艺术、附:玫瑰花的绘制)
1、图形用户界面PyQt5:Qt开发框架的Python接口-提供了创建Qt5程序的Python API接口,Qt是非常成熟的跨平台桌面应用开发系统,完备GUI-推荐的Python GUI开发第三方库-https://www.riverbankcomputing.com/software/pyqtwxPython:跨平台GUI开发框架-提供了专用于Python的跨平...原创 2019-03-17 21:49:14 · 1690 阅读 · 0 评论 -
python3计算生态之从Web解析到网络空间(网络爬虫、Web网站/应用开发)
1、Python库之网络爬虫Requests:最友好的网络爬虫功能库-提供了简单易用的类HTTP协议网络爬虫功能,支持连接池、SSL、Cookies、HTTP(S)代理等-Python最主要的页面级网络爬虫功能库-网址:http://www.python-requests.org/import requestsr = requests.get('http://api.git...原创 2019-03-17 16:08:43 · 355 阅读 · 0 评论 -
python3之从数据处理到人工智能的计算生态概览、霍兰德人格分析雷达图(报错及解决)
从数据处理到人工智能数据表示->数据清洗->数据统计->数据可视化->数据挖掘->人工智能-数据表示:采用合适方式用程序表达数据-数据清洗:数据归一化、数据转换、异常值处理-数据统计:数据的概要理解,数量、分布、中位数等-数据可视化:直观展示数据内涵的方式-数据挖掘:从数据分析获得知识,产生数据外的价值-人工智能:数据/语言/图像/视觉等方...原创 2019-03-16 23:07:02 · 1189 阅读 · 4 评论 -
Python之jieba库(例:文本词频统计)
1、jieba库概述jieba是优秀的中文分词第三方库-中文文本需要通过分词获得单个的词语-jieba是优秀的中文分词第三方库,需要额外安装-jieba库提供三种分词模式,最简单只需要掌握一个函数2、jieba库的安装(cmd命令行)pip install jieba 或 easy_install jiebaC:\Users\lenovo>easy_instal...原创 2019-03-12 22:38:14 · 2144 阅读 · 0 评论 -
python的PyInstaller库的学习(附:解决pip更新问题、实现文件连接图标打包、科赫雪花小包裹)
1、PyInstaller库概述将.py源代码转换成无需源代码的可执行文件 -windows(exe文件)-.py —> PyInstaller —> -Linux -Mac...原创 2019-03-11 18:29:24 · 1012 阅读 · 0 评论 -
python之第三方库的安装
1、第三方库(1)第三方库:https://pypi.org/(2)PyPI-PyPI:Python Package Index-PSF维护的展示全球Python计算生态的主站,学会检索并利用PyOI,找到合适的第三方库开发程序实例:在pypi.org搜索XXX,挑选合适开发目标的第三方库作为基础,完成自己需要的功能2、第三方库的安装方法(1)pip安装方法 使用p...原创 2019-03-14 20:05:33 · 279 阅读 · 0 评论 -
python3之程序设计思维、os库
1、自顶向下(分析)、自底向上(执行)-将一个总问题表达为若干个小问题组成的形式,使用同样方法进一步分解小问题,直至小问题可以用计算机简单明了的解决-分单元测试,逐步组装。按照自顶向下相反的路径操作。直至,系统各部分以组装的思路都经过测试和验证2、体育竞技分析A&B,五局三胜步骤:打印程序的介绍性信息式,获得程序运行参数:proA,proB,n,利用球员A和B的能力值,...原创 2019-03-14 19:38:00 · 135 阅读 · 0 评论