![](https://img-blog.csdnimg.cn/20190927151117521.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Python
语言
yepoyou
一个小透明
展开
-
【数据分析】散点图
matplotlib.pyplot.scatter在matplotlib中使用函数matplotlib.pyplot.scatter绘制散点图# Autogenerated by boilerplate.py. Do not edit as changes will be lost.@_copy_docstring_and_deprecators(Axes.scatter)def scatter( x, y, s=None, c=None, marker=None, c...转载 2020-11-27 08:59:14 · 2362 阅读 · 0 评论 -
【Python】try except finally
完整的格式顺序是:try —> except X —> except —> else—> finally如果 else 和 finally 都存在的话,else 必须在 finally 之前,finally 必须在整个程序的最后。else 的存在是以 except 或 except X 的存在为前提,如果没有 except,而在 try 中使用 else 的话,会出现语法错误。try:#正常执行的程序,如果执行过程中出现异常,则中断当前的程序执行,跳转到对应的异常处.原创 2020-11-26 21:07:39 · 705 阅读 · 1 评论 -
【Python】进程线程对比
关系对比区别对比优缺点原创 2020-11-17 09:37:50 · 97 阅读 · 0 评论 -
【Python】线程
概述作用原创 2020-11-17 09:24:47 · 86 阅读 · 0 评论 -
【Python】进程
目录概念作用概念作用提高效率原创 2020-11-15 14:16:27 · 69 阅读 · 0 评论 -
【Python】多任务
并发并行原创 2020-11-15 14:09:42 · 70 阅读 · 0 评论 -
【Python】logger模块
目录1 logging模块简介2 logging模块使用2.1 基本使用2.2 将日志写入到文件1 logging模块简介logging模块是Python内置的标准模块,主要用于输出运行日志,可以设置输出日志的等级、日志保存路径、日志文件回滚等;相比print,具备如下优点:可以通过设置不同的日志等级,在release版本中只输出重要信息,而不必显示大量的调试信息; print将所有信息都输出到标准输出中,严重影响开发者从标准输出中查看其它数据;logging则可以由开发.原创 2020-11-14 15:37:19 · 416 阅读 · 0 评论 -
【Python】argparse
argparse 是一个用来解析命令行参数的 Python 库,它是 Python 标准库的一部分。基于 python 2.7 的 stdlib 代码。这个库可以让我们直接在命令行中就可以向程序中传入参数并让程序运行。argparse 模块使编写用户友好的命令行界面变得容易。程序定义了所需的参数,而 argparse 将找出如何从 sys.argv 中解析这些参数。argparse 模块还会自动生成帮助和使用消息,并在用户为程序提供无效参数时发出错误。还有另外两个模块可以完成同样的任务,称为ge.原创 2020-11-12 21:34:22 · 69 阅读 · 0 评论 -
【Python】python标准库之glob
glob1.通配符2.单个字符通配符3.字符范围glob.iglobglob是python自己带的一个文件操作相关模块,用它可以查找符合自己目的的文件,类似于Windows下的文件搜索,支持通配符操作。glob 文件名模式匹配,不用遍历整个目录判断每个文件是不是符合。glob模块的主要方法就是glob,该方法返回所有匹配的文件路径列表;该方法需要一个参数用来指定匹配的路径字符串(字符串可以为绝对路径也可以为相对路径),其返回的文件名只包括当前目录里的文件名,不包括子文件夹里的文件。gl原创 2020-11-03 11:45:52 · 835 阅读 · 1 评论 -
【Python】__pycache__文件夹
Python程序运行时不需要编译成二进制代码,而直接从源码运行程序。简单来说是,Python解释器将源码转换为字节码,然后再由解释器来执行这些字节码。解释器的具体工作:1、完成模块的加载和链接;2、将源代码编译为PyCodeObject对象(即字节码),写入内存中,供CPU读取;3、从内存中读取并执行,结束后将PyCodeObject写回硬盘当中,也就是复制到.pyc或.pyo文件中,以保存当前目录下所有脚本的字节码文件。之后若再次执行该脚本,它先检查【本地是否有上述字节码文件】和【该字节码原创 2020-10-29 16:54:14 · 338 阅读 · 0 评论 -
【Python】魔法方法
魔法方法概述__repr____del____new__概述repr定制对象显示规则class Student: def __init__(self, name, age): self.name = name self.age = agestu = Student('wyb', 23)print(stu)print(stu.__repr__())输出:<main.Student object at 0x0000026C9D9EB5C8&原创 2020-10-27 15:48:49 · 109 阅读 · 1 评论 -
【Python】asyncio框架(二)
这里写目录标题协程并发代码实验协程并发gather方法,传列表的话记得解包代码实验import asyncio,time'''协程创建100个文件'''#定义一个协程对象async def write_file(path, num): print('正在生成{}个文件'.format(num)) with open(path, 'w') as f: f.write('this is file{}'.format(num))if __name__ =原创 2020-10-26 20:37:08 · 128 阅读 · 0 评论 -
【Python】asyncio框架
asyncio框架基本概念如何使用asyncio实现协程重要概念协程的工作流程在协程中绑定回调函数基本概念同步IO、异步IO:异步IO本质是对IO操作的调度。asyncio的意义:web程序——Django Flask爬虫——Scrapy框架可以将很多重复的复杂度高的工作提前完成,写代码时专注业务代码的实现。如何使用asyncio实现协程基于@asyncio.corotutine装饰器来定义使用asyncio原生协程定义重要概念协程的工作流程定义/创建协程对象定义事原创 2020-10-26 19:27:38 · 212 阅读 · 0 评论 -
【Python】生成器and协程
目录基本概念生成器利用生成器实现协程基本概念可迭代对象:实现了__iter__()或者__getitem__()方法 判断一个对象是可迭代对象:①isinstance() + Iterable() ; ②hasattr() + __getitem__() 迭代器对象:工厂模式,节约内存空间。因为是工厂,根据需求来,所以不会事先知道长度。没有len属性。可以产生无限多而不会爆掉,因为不事先分配内存。生成器yield(①程序每次在代码中遇到yield,会返回结果给调用方;②保.原创 2020-10-26 17:33:25 · 125 阅读 · 0 评论 -
【Python】函数参数前面一个星号(*)和两个星号(**)的区别
https://www.runoob.com/w3cnote/python-one-and-two-star.html转载 2020-10-23 11:11:47 · 331 阅读 · 0 评论 -
【爬虫】中间件
如图所示,下载中间件可以批量拦截整个工程中所有的请求和响应。拦截请求:UA伪装。在配置文件中设置的是基于全局的,所有请求均为同一个UA。若想尽可能多的使用不同UA给各个不同的请求,则只能使用下载中间件。代理IP。请求可能会被服务器禁掉。拦截响应:篡改响应数据,响应对象。...原创 2020-08-19 22:47:26 · 819 阅读 · 0 评论 -
【爬虫】scrapy图片爬取imagesPipeline
scrapy图片爬取爬取字符串和爬取图片的区别ImagesPipeline使用流程爬取字符串和爬取图片的区别字符串:基于xpath进行解析提价管道进行持久化存储图片:xpath解析出图片src属性,对图片地址发起请求获取图片二进制类型数据ImagesPipeline将img的src属性进行解析,提交到管道,管道会对src进行请求发送获取图片的二进制类型的数据且进行持久化存储使用流程数据解析。解析出图片地址。将存储图片地址的item提交到imagespipeline管道类在管道文件中自原创 2020-08-18 10:22:40 · 974 阅读 · 0 评论 -
【爬虫】请求传参
使用场景爬取解析的数据不在用一个页面中,深度爬取需求爬取招聘网站某类的岗位名称、岗位描述import scrapyfrom spider.bossPro.bossPro.items import BossproItemclass BossSpider(scrapy.Spider): name = 'boss' # allowed_domains = ['www.xxx.com'] start_urls = ['https://www.zhipin.com/c101020原创 2020-08-17 19:54:04 · 313 阅读 · 0 评论 -
【爬虫】scrapy五大组件
原创 2020-08-17 17:41:23 · 169 阅读 · 0 评论 -
【爬虫】全站数据爬取,即所有页
将网站中某板块下的全部页码对应的页面数据进行爬取需求:抓取校花网中的照片名称实现方式: 将所有页面的url添加到start_urls列表(不推荐) 手动请求发送(推荐)爬虫文件import scrapyfrom spider.xiaohuaPro.xiaohuaPro.items import XiaohuaproItemclass XiaohuaSpider(scrapy.Spider): name = 'xiaohua' # allowed_.原创 2020-08-17 17:07:52 · 1487 阅读 · 1 评论 -
【爬虫】面试题:爬取的数据一份存到本地,一份存到数据库,如何实现?
持久化存储新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基原创 2020-08-17 13:01:22 · 666 阅读 · 1 评论 -
【爬虫】scrapy持久化存储
目录基于终端指令基于管道编码流程基于终端指令要求:只可以将parse方法的返回值存储到本地文本文件中 注意:存储类型有限制,见终端截图1 指令:scrapy crawl 爬虫名 -o 路径 优点:简洁高效便捷 缺点:局限性较强,后缀有限import scrapyclass QiubaiSpider(scrapy.Spider): name = 'qiubai' # allowed_domains = ['www.xxx.com'] start_u原创 2020-08-16 22:05:29 · 348 阅读 · 0 评论 -
【爬虫】scrapy数据解析
爬取如下:步骤:爬虫代码:import scrapyclass QiubaiSpider(scrapy.Spider): name = 'qiubai' # allowed_domains = ['www.xxx.com'] start_urls = ['https://www.qiushibaike.com/text/'] def parse(self, response): # 解析作者名称、段子内容 d...原创 2020-08-16 19:54:25 · 448 阅读 · 1 评论 -
【爬虫】scrapy基本使用
import scrapyclass ExampleSpider(scrapy.Spider): # 爬虫文件名称:爬虫文件的唯一标识 name = 'example' # 允许的域名:限定start_urls中哪些可以进行自动请求发送 # allowed_domains = ['www.baidu.com'] # 往往不用这一条限制 # 起始的url列表:该列表中的url会被scrapy自动请求发送 start_urls = ['http://ww.原创 2020-08-16 16:55:43 · 112 阅读 · 0 评论 -
【爬虫】scrapy框架
目录什么是框架如何学习框架什么是scrapyscrapy的基本使用环境安装基本使用什么是框架集成了很多功能,具有很强的通用性的项目模板如何学习框架学习框架封装的功能的详细用法 深层,底层封装源码了解什么是scrapy爬虫中封装好的明星框架。 高性能的持久化存储、异步的数据下载、高性能的数据解析、分布式scrapy的基本使用环境安装Mac/Linux :pip install scrapyWindows:pycha...原创 2020-08-16 16:35:11 · 258 阅读 · 0 评论 -
不平衡数据集分类
目录前言分析数据集创建直方图前言许多二分类任务并不是每个类别都有相同数量的数据,存在着数据分布不平衡的情况。一个常用的例子是成人收入数据集,它涉及到社交关系、教育水平等个人数据,以此来预测成人的收入水平,判断其是否拥有5万美元/年的个人收入。数据集中个人收入低于5万美元的数据比高于5万美元的数据要明显多一些,存在着一定程度的分布不平衡。针对这一数据集,可以使用很多不平衡分类的相关算法完成分类任务。如何为数据分布不平衡的成人收入数据集开发分类模型并对其进行评估。如何加载和分.原创 2020-07-14 19:44:18 · 2181 阅读 · 0 评论