Python基础
文章平均质量分 73
rainbow_lucky0106
这个作者很懒,什么都没留下…
展开
-
pyquery
文章目录pyquery: HTML解析库初始化字符串(HTML内容)初始化URL初始化本地文件初始化CSS选择器获取节点的文本内容: .text()查找节点查找节点的所有子孙节点:.find()只查找子节点:.children()节点的直接父节点:.parent()祖先节点:.parents()兄弟节点:.siblings()pyquery: HTML解析库直接解析 DOM 节点的结构,并通过 DOM 节点的属性快速进行内容提取。初始化字符串(HTML内容)初始化html = '''<原创 2020-07-15 23:19:00 · 391 阅读 · 0 评论 -
Scrapy框架应用实践
参考原文:https://www.jianshu.com/p/6bc5a4641629https://scrapy-chs.readthedocs.io/zh_CN/latest/intro/overview.html安装pip install scrapy创建项目创建一个名为tutorial文件夹cmd: scrapy startproject tutorial文件说明...原创 2020-03-15 22:53:37 · 673 阅读 · 0 评论 -
python爬虫
一、什么是爬虫沿着网络抓取自己数据:向网站发起请求,获取资源后分析并提取有用数据。通过模拟浏览器请求站点的行为,把站点返回的HTML代码、JSON数据、二进制数据(图片、视频)爬到本地,进而提取自己需要的数据,存放起来使用。二、流程模拟浏览器发送请求(获取网页代码)->提取有用的数据->存放于数据库或文件中1. 发起请求使用http库项目标站点发起请求(Reques...转载 2019-01-21 20:42:14 · 145 阅读 · 0 评论 -
python爬虫
requests图片爬取from io import BytesIO,StringIOimport requestsfrom PIL import Imagefrom pyquery import PyQuery as pqimport jsonkw = {'q': 'png图片'}response = requests.get("https://cn.bing.com/images/search?", params = kw);print(response.url)doc = pq原创 2022-03-30 11:56:16 · 1444 阅读 · 0 评论 -
Python基础 —— ZipFile模块
zipfile模块:zip格式编码的压缩和解压缩ZipFile和ZipInfo, 在绝大多数的情况下,我们只需要使用这两个class就可以了。ZipFile是主要的类,用来创建和读取zip文件。而ZipInfo是存储的zip文件的每个文件的信息的。import zipfile z = zipfile.ZipFile(filename, 'r')for i in z.infolist...原创 2019-03-18 22:32:09 · 717 阅读 · 0 评论 -
NumPy & pandas
NumPyPython科学计算领域,几乎所有科学计算库都依赖NumPy强大的N维数组对象广播功能基于C语言,速度快线性代数、傅里叶变换和随机数能力numpy.version 查询版本号查看数组中元素类型:nparr.dtype对比python list(numpy04.py)List:对于列表中的每一个元素均需要检查是哪种具体类型,时间损耗大,但可以修改元素...原创 2018-09-09 14:31:24 · 234 阅读 · 0 评论 -
Jupyter 魔术方法
20180902%lsmagic查看所有魔法目录 Available line magics: %alias %alias_magic %autocall %automagic %autosave %bookmark %cd %clear %cls %colors %config %connect_info %copy %ddir %debug %dhis...原创 2018-09-02 15:50:21 · 840 阅读 · 0 评论 -
python画图 matplotlib + seaborn
文章目录引入包set_style() \ set()引入包import seaborn as snsimport matplotlib.pyplot as pltset_style() \ set()set_style( )是用来设置主题的,Seaborn有五个预设好的主题: darkgrid , whitegrid , dark , white ,和 ticks 默认: darkgridset( )通过设置参数可以用来设置背景,调色板等,更加常用。sns.set(style="w原创 2020-10-13 22:48:56 · 250 阅读 · 0 评论 -
Python Subprocess子进程管理
Subprocesshttps://www.jb51.net/article/124667.htmsubprocess.call(args, *, stdin=None, stdout=None, stderr=None, shell=False)父进程等待子进程完成,返回退出信息(returncode,相当于Linux exit code)subprocess.check_call(args, *, stdin=None, stdout=None, stderr=None, shell=Fal原创 2021-01-16 20:04:00 · 205 阅读 · 0 评论 -
Shotcuts of Jupyter Notebook
文章目录状态切换运行单元操作状态切换M :单元转入markdown状态Y : 单元转入代码状态运行Ctrl-Enter : 运行本单元Shift-Enter : 运行本单元,选中下个单元Alt-Enter : 运行本单元,在其下插入新单元单元操作C : 复制选中的单元1 : 设定 1 级标题D : 删除选中的单元...原创 2020-12-01 15:02:11 · 87 阅读 · 0 评论 -
Python PDF读取&处理
python PDF处理资料如何使用Python玩转PDF各种骚操作?在Python中使用PDF:阅读和拆分pdfplumber读取pdf文本和表格处理——pdfplumbPDFPlumber:从PDF文件提取文字和表格的Python库python读取pdf文件使用pdfplumber读取PDF用python 将PDF中的表格转化为Excel用python解析pdf中的文本与表格...原创 2020-04-04 20:34:54 · 3548 阅读 · 0 评论 -
python装饰器(Decorator)@ 简单介绍
https://www.jianshu.com/p/ee82b941772a原创 2020-10-24 15:10:13 · 131 阅读 · 0 评论 -
Python标准库:内置函数
filter(function, iterable)本函数用来从一个迭代对象iterable遍历所有元素,当每个元素作为参数给函数function对象运行之后,判断为True的元素保留下来,而为False的元素则跳过,即是达到过滤不需要元素的目标。参数iterable是可迭代的对象,比如列表、字典、字符串,或者带迭代器的函数对象。参数function是一个能输入元素进判断并返回值的函数,如果...原创 2019-04-02 15:54:05 · 466 阅读 · 0 评论 -
python基础 —— 出错处理
raise:报错功能raise NotImplementedError在面向对象编程中,可以先预留一个方法接口不实现,在其子类中实现。如果要求其子类一定要实现,不实现的时候会导致问题,那么采用raise的方式就很好。=》问题分类是NotImplementedError。...原创 2019-03-31 21:55:16 · 142 阅读 · 0 评论 -
python基础 —— 序列化与反序列化
JSONimport jsonjson.dumps()d = dict(name='Bob', age=20, score=88)json.dumps(d)# 返回一个str:'{"age": 20, "score": 88, "name": "Bob"}'json.loads()反序列化得到的所有字符串对象默认都是unicode而不是str。json_str = '{...原创 2019-03-31 15:44:58 · 157 阅读 · 0 评论 -
python基础 —— json处理
json.dumps()和json.loads()json格式处理函数json.dumps()将一个python数据类型列表进行json格式编码,字典=》字符串(json)json.loads()将json格式数据转换为字典json.dump()和json.load()读写json文件函数json.dump()将json信息写进文件dict = {'age': '12'}js...原创 2018-12-08 15:06:17 · 105 阅读 · 0 评论 -
Python基础 —— 基本库(list\numpy\tqdm)
list对于每一个元素都需要检查是哪种具体类型,时间损耗大。 L = [i for i in range(10)] L[5] = “Machine Learning” 不报错array存储单一类型元素。以数组方式存储,不看做矩阵,不能进行矩阵运算。import array arr = array.array(‘i’,[i for i in range(10)]) arr...原创 2018-12-08 15:48:24 · 546 阅读 · 0 评论 -
python基础 —— 描述符
属性参考:https://blog.csdn.net/loner_fang/article/details/80877491https://www.jianshu.com/p/eb05770c2348类属性类属性:直接在类中创建的属性。类属性直接绑定在类上的,可以不实例化直接通过类名调用类属性。创建的实例都会继承自唯一的类属性。类属性改变会影响到所有实例。实例属性和类属性重名时,...原创 2018-12-09 15:21:14 · 100 阅读 · 0 评论 -
python模块 —— collections
collectionsnamedtuple(‘名称’, [属性list])用来创建一个自定义的tuple对象(可以表示不变集合),规定了tuple元素的个数,并可以用属性而不是索引来引用tuple的某个元素。Point = namedtuple('Point', ['x', 'y'])p = Point(1, 2)deque实现插入和删除操作的双向列表,适合用于队列和栈实现list...原创 2018-12-09 16:28:08 · 133 阅读 · 0 评论 -
CSV文件读写
# 读with open(filepath,mode='r',encoding='utf-8',newline='') as f: #此处读取到的数据是将每行数据当做列表返回的 dataline = csv.reader(f) # 词典读入dict_reader = csv.DictReader(data)# 写with open('eg...原创 2018-12-09 20:33:18 · 696 阅读 · 0 评论 -
python基础 —— 闭包 closure 与 装饰器
参考:https://www.bilibili.com/video/av18586448?from=search&amp;seid=6082666377841139699闭包:数据封装内部函数对外部函数作用域里变量的引用内部函数在外部函数执行过程中创建内部函数在未创建前,不能直接调用def func(): # 外部函数 print("this is func.") def fu...原创 2018-12-10 15:18:16 · 158 阅读 · 0 评论 -
python基础 —— 匿名函数 lambda
lambda 函数拥有自己的命名空间,且不能访问自己参数列表之外或全局命名空间里的参数。lambda [arg1 [,arg2,.....argn]]:expression# lambda 参数列表:return [表达式] 变量# 由于lambda返回的是函数对象(构建的是一个函数对象),所以需要定义一个变量去接收...转载 2018-12-17 16:04:32 · 147 阅读 · 0 评论 -
TFRecoders
TFRecords文件读写https://blog.csdn.net/u012222949/article/details/72875281/https://blog.csdn.net/chengshuhao1991/article/details/78656724统一不同输入文件的框架更好的利用内存,更方便复制和移动(TFRecord压缩的二进制文件, protocal buffer序...转载 2018-12-11 22:29:58 · 178 阅读 · 0 评论 -
python 编码转换 模块 —— codecs
编码转换:原有编码 -> 内部编码 -> 目的编码python的内部是使用unicode处理unicode使用考虑的编码格式有两种:2.1 UCS-2,65536个码位。2.2 UCS-4,2147483648g个码位。在编译时通过--enable- unicode=ucs2或--enable-unicode=ucs4来指定的。sys.maxunicode 判断pytho...转载 2018-12-28 19:21:14 · 413 阅读 · 0 评论 -
python基础 —— scipy模块
scipy.miscscipy.misc.imread(name, flatten=False, mode=None): 读取图片import scipy.miscb = scipy.misc.imread('/home/file/image.jpg') # numpy array原创 2019-03-19 21:05:22 · 277 阅读 · 0 评论 -
python基础 —— argparse模块
argparse模块: 处理命令行参数 \ sys.argv[]命令行参数位置参数: ls root/选项参数(已经提前定义好的参数,不能随意指定):ls -lsteps导入模块 import argparse创建一个解析对象 parser = argparse.ArgumentParser()向对象中添加命令行参数和选项 parser.add_argument()进行解析 pa...原创 2019-03-15 21:00:40 · 190 阅读 · 0 评论 -
pthon基础 —— OS模块
os.walk()os.walk() 方法用于通过在目录树中游走输出在目录中的文件名,向上或者向下。os.walk() 方法是一个简单易用的文件、目录遍历器,可以帮助我们高效的处理文件、目录方面的事情。os.walk(top[, topdown=True[, None[, followlinks=False]]])top – 是你所要遍历的目录的地址, 返回的是一个三元组(root,di...原创 2019-03-18 21:46:33 · 707 阅读 · 0 评论 -
python基础
绝对引入主要是针对python2.4及之前的版本的,在引入某一个.py文件时,会首先从当前目录下查找是否有该文件。而如果我们想引用python自带的.py文件时,则需要使用。,而在3.x中,所有字符串都被视为unicode,因此,写u’xxx’和’xxx’是完全一致的,而在2.x中以’xxx’表示的str就必须写成。从Python 2.7到Python 3.x就有不兼容的一些改动,比如2.x里的字符串用’xxx’表示str,把下一新版本的特性导入到当前版本,在当前版本中测试一些新版本的特性。原创 2018-11-30 14:41:29 · 481 阅读 · 1 评论