python-行者-CSDN博客

原创 python-数据分析-（12）pandas数据清洗、缺失值、重复值、异常值处理常见方法

一.导入模块 import pandas as pdfrom scipy.interpolate import interp1d 二.读取excel文件 data=pd.read_excel(r'E:\pythonwork\数据分析\11.数据清洗\人事终表 (1).xlsx').tail(10)print(data)''' Unnamed: 0 部门姓名应发数发放时间绩效合计工资108 108 讲解员（6人.

2021-01-08 13:53:16 4772

转载 MongoDB-数据库：文档操作、文件导入与导出操作指令大全

文章目录数据库操作集合操作创建集合查看集合删除集合文档操作插入文档更新文档删除文档查询文档备份与恢复导入与导出数据库操作命令描述use DATA_BASE不存在则创建数据库，存在则进入show dbs查看所有数据库db查看当前所在数据库db.dropDatabase()删除当前所在数据库db.version()查看数据库版本db.getMongo()查看当前数据库连接地址集合操作创建集合 db.createCollection(name, [capped, si.

2021-01-07 11:41:19 1945

原创 python-数据分析-（11）pandas聚合函数、透视表、交叉表、表格合并常见操作

一聚合函数1. numpy、pandas使用的统计方式在数组中经常使用的聚合方式data[['counts', 'ches_name']].agg([np.mean, np.std])agg({'xx':np.mean, 'xx2':[np.sum, np.std]})2. 在pandas或者numpy中没有现成的函数可以使用，可以使用transform自定义函数如：将指定列的全部数据 * 2方式一data['counts'].transform(lambda x: x*2)方式二

2021-01-04 21:31:11 2589 16

原创 python-数据分析-（10）pandas时间处理、字符串处理、分组聚合、去重排序常见操作

pandas在数据清洗过程，难不了会特定的列或者行进行操作，就需要特殊的指令操作，在这里收集了常见的操作指令。希望能在工作中帮给您一定的帮助。我这本文章中先导入包，读取了本地的一个文件，内容有字符串、时间。# import导入模块import pandas as pdimport numpy as np# 读取Excel文件data = pd.read_excel('./meal_order_detail.xlsx')print(data.shape) # (2779, 19) 查看结构

2020-12-31 21:21:39 3039

原创 python-数据分析-（9）pandas（Excel、csv）文件读写操作，常见参数分析

一、pandas中Excel文件常见操作基本语法# import导入模块import pandas as pdimport numpy as np# 读取文件，在这里我读取的是本地文件，也可以直接传入绝对路径s1 = pd.read_excel('./meal_order_detail.xlsx') s2 = pd.read_excel('C:\Users\Administrator\Documents\Tencent Files\1661157270\FileRecv\meal_orde

2020-12-31 20:31:12 2274

原创 python-数据分析-（8）pandas初识

pandaspandas是基于Numpy的一种工具，该工具是为解决数据分析任务而创建的，pandas纳入了大量库和一些标准的数据模型，提供了高效的操作大型数据集所需要的的工具，pandas提供了大量能使我们快速便捷地处理数据的函数和方法。表格数据操作（增删改查）实现多个表格的处理数据清洗操作：缺失值、重复值、异常值、数据标准化、数据转换的操作实现所有的excel的特殊操作：生成透视表、交叉表完成统计分析一、pandas的创建import pandas as pd1、表结构数据，构建D

2020-12-30 18:27:45 1308 15

原创 python-数据分析-（7）matplotlib子图的绘制

matplotlib多个图形的绘制import导入模块import numpy as npimport matplotlib.pyplot as plt可以用子图来将图样（plot）放在均匀的坐标网格中。用 subplot 函数的时候，你需要指明网格的行列数量，以及你希望将图样放在哪一个网格区域中。此外，gridspec 的功能更强大，你也可以选择它来实现这个功能。设置参数# 画布参数# 1 修改字体plt.rcParams['font.sans-serif'] = 'SimHei'#

2020-12-25 20:57:24 1802 13

原创 python-数据分析-（6）matplotlib绘图

matplotlibmatplotlib是 Python 2D-绘图领域使用最广泛的套件。它能让使用者很轻松地将数据图形化，并且提供多样化的输出格式。pylabpylab 是 matplotlib 面向对象绘图库的一个接口。它的语法和 Matlab 十分相近。也就是说，它主要的绘图命令和 Matlab 对应的命令有相似的参数。下载： pip install matplotlibimport导入模块import matplotlib.pyplot as pltimport numpy as np

2020-12-25 20:42:38 1869 15

原创 python-数据分析-（5）numpy常用操作

numpy常用操作1、 unique：去重（1）一维数组去重：直接将一维数组中的元素进行去重arr = np.array([2,3,4,3,2,2,3,4,2,2,3,4])[2 3 4 3 2 2 3 4 2 2 3 4]print(np.unique(arr))[2 3 4]（2）二维数组去重：默认，unique(arr)，axis = None，会将所有的元素先转化为一维数组，再进行去重axis = 0/1，整行或者整列进行排序，将行（列）中重复的元素去重，返回每行（列）去重

2020-12-25 20:26:08 1099 10

原创 python-数据分析-（4）numpy数组的运算

数组的运算数组的运算:对应元素的运算,结构完全相同(1) 四则运算:+ - * / ** %import numpy as nparr1 = np.arange(1,17).reshape((4,4))# print(arr1)arr2 = np.diag([2,3,1,5]) # 创建一个对角数组# print(arr2)arr3 = arr1 * arr2 # 乘法# print(arr3)arr4 = arr2 / arr1 # 除法被除数不能为0# print(ar

2020-12-24 16:56:33 510

原创 python-数据分析-（3）numpy数组的创建

numpy数组的创建数组的创建以及常用操作一、特殊的创建数组import numpy as np1、 arange 起始位置，终止位置，步长arr3 = np.arange(1, 10,2)print(arr3)[1 3 5 7 9]2、 linspace 起始位置，终止位置，显示的个数给出初始位置，差数，显示个数，求最后一个数起始位置 + （个数-1）*（差数） = 最后一个数# a1=8 d=-1 n=7# # 8 + (7-1)*(-1) = 2 arr5

2020-12-24 16:55:19 1687 1

原创 python-数据分析-（2）numpy初识

一、 numpy 矩阵numpy（Numerical python）是python语言的一个扩展程序库，支持大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库numpy : 计算模块；主要有两种数据类型：数组、矩阵特点：运算快【】 + 【】import numpy as np1、numpy创建矩阵mat1 = np.mat("1 2 3; 2 3 4; 1 2 3")print(mat1)print(type(mat1))[[1 2 3] [2 3 4] [1

2020-12-23 21:15:04 318 3

原创 python-数据分析-（1）线性代数

线性代数一、矩阵1、什么是矩阵？矩阵是一种按照长方阵排列的包含复数和实数的集合2、矩阵转换就是把生活中的一列数或者方程式转换为矩阵3、特殊矩阵只有一行的矩阵：行矩阵、行向量 A = （A1， A2 ... An）只有一列的矩阵：列矩阵 [[1 ] A = [0 ] [0 ]]对角矩阵：只有对角线有数据，其他为0的矩阵 [[1. 0. 0.] A = [0. 2. 0.]

2020-12-23 20:07:27 342

原创 MySQL面试题集（2）

DBMS；DBA；DB；SQL分别代表什么含义？DBMS：（Database Management System）:数据库管理系统，安装在数据库服务器上的应用软件，主要用于管理服务器上的数据和数据的增删改查 DBA：（Database Administrator）:数据库管理员 , DB：（Database）具体的数据库，负责具体存储和管理数据的实体对象 , SQL（Standand Query Language）:标准查询语句，是一种语法结构，专门用于操作数据库而定义的一种语言，区分为数据定义语句

2020-12-23 19:05:58 406 2

原创 mysql面试题集（1）

假如有100万条数据，在mysql数据库中是如何存储的？如何在高并发的情况下对一条数据进行操作？数据库1、数据库概念数据库是三层架构中用于永久存储数据的仓库，就是存储数据的容器2、数据库的三范式确保数据库中每一列数据都是不可分割的原子性数据表中每一列数据都应该和主键直接相关，即只能存储一种数据，不能存储多个数据数据表中每一列数据都要和主键直接相关，而不是间接相关3、软件的三层架构用户交互界面：展示用户输入的信息和想要得到的数据业务处理层：处理用户发送的数据，进行相应的逻

2020-12-23 17:25:36 291

原创 python实例：双向循环链表的实现

使用python实现双向循环链表双向循环链表：将所有的数据存放到节点中，每一个节点相连接，首尾链接，每一个节点中有一个数据存储区，和两个链接区，一个链接前一个节点，一个链接下一个节点双向链表操作链表是否为空链表的长度遍历链表链表头部添加元素链表尾部添加元素链表指定位置添加元素链表删除节点查找节点是否存在代码实现# Functions 函数声明class Node(): """实例化节点类""" def __init__(self, item):

2020-12-16 22:24:01 291

原创 python实例：单向循环链表的实现

使用python实现单向循环链表单向循环链表将所有的链接在一起，每一个节点分为数据存储区和链接区，数据区存储数据，链接区链接下一个节点item：存储数据的地方next：链接下一个节点注意：单向循环链表是首位链接，即尾部的节点要和头部的节点链接双向链表操作链表是否为空链表的长度遍历链表链表头部添加元素链表尾部添加元素链表指定位置添加元素链表删除节点查找节点是否存在代码实现# Functions 函数声明class Node(): """实例化节点类""

2020-12-16 22:18:48 431 1

原创 python实例：双向链表的实现

使用python实现双向链表双向链表：指的是讲数据链接在一起，每个数据是一个节点，每一个节点都有一个数据区，两个链接区，分别链接上一个节点和下一个节点数据区：存放数据的地方prev：链接上一个节点next：链接下一个节点双向链表操作链表是否为空链表的长度遍历链表链表头部添加元素链表尾部添加元素链表指定位置添加元素链表删除节点查找节点是否存在代码实现# Functions 函数声明class Node(): """实例化节点类""" def _

2020-12-16 22:13:52 520

原创 python实例：单向链表的实现

使用python实现单向链表单向链表：是将所有的数据作为一个个节点，将所有的节点链接在一起。每一个节点中又分为：存储数据区，链接区存储数据区：存储具体的数据链接区：指向下一个节点分析实现：1、分析：根据链表的特性，首先要存放有数据的容器，还要有存放节点的容器2、节点类中：要有数据区和next区3、链表类中：存放所有节点单链表操作链表是否为空链表的长度遍历链表链表头部添加元素链表尾部添加元素链表指定位置添加元素链表删除节点查找节点是否存在代码实现# Func

2020-12-16 22:09:13 692

原创 python实例：双向队列的实现

使用python实现双向队列双向队列：指结合了栈和队列的特点，可以先进先出，也可以先进后出实现方式：可以使用两个栈来实现实现创建一个双向队列顶部添加一个元素尾部添加一个元素顶部返回一个元素尾部返回一个元素判断队列是否为空返回队列的大小代码实现# Functions 函数声明class Dequeue(): def __init__(self): # 实例化一个双向队列 self.dequeue = [] def push_he

2020-12-16 22:00:11 384

原创 python实例：队列的实现

python中使用顺序表实现队列，先进先出原则在这里使用的是列表实现创建一个队列队列顶部添加一个数据返回队列一个数据判断队列是否为空返回队列的大小代码实现# Functions 函数声明class Queue(): def __init__(self): # 初始化一个队列 self.queue = [] def push(self, item): # 往队列中添加一个元素 self.queue.in

2020-12-16 21:54:28 367

原创 python实例：栈的实现

使用python 实现栈栈：先进先出特性，指的就是只有一个进口和出口，先进后出原则实现：使用列表实现一个栈添加元素返回栈顶元素判断栈是否为空返回栈的大小代码实现# Functions 函数声明class Stack(): def __init__(self): self.stack = [] pass def add(self, item): """往栈顶添加一个数据""" self.stack.a

2020-12-16 21:48:33 310

原创 MySQL数据库的锁 --- 六种分类 - 14种锁详细介绍

MySQL锁概述锁是计算机协调多个进程或线程并发访问某一个资源的机制，在数据库中，除传统的计算资源（CPU、RAM、I/O）的争用以外，数据也是一种供许多用户共享的资源。如何保证数据并发访问的一致性、有效性是所在有数据库必须解决的一个问题，锁冲突也是影响数据库并发访问性能的一个重要因素。从这个角度来说，锁对数据库而言显得尤其重要，也更加复杂。分类MySQL锁概述一、死锁二、锁的区间划分1、间隙锁（Gap Locks）2、临键锁（Next-key Locks）三、锁的粒度划分1、表级锁（Table-le.

2020-12-04 13:47:42 22646 15

原创 Linux中安装celery，并解决pip和运行等解决问题

Linux中安装celery本安装是在centos7总完成1、直接使用pip进行安装pip install -U “celery[redis]”报错1：pip模块的版本有点儿旧了，需要更新解决方法： pip install --upgrade pip报错2：在安装时pip install xx 时报time out,分析：是由于国内网络原因，python包的下载速度非常慢，有可能出现连接超时等问题解决方法：使用清华源： https://pypi.tuna.tsinghua.edu.c

2020-11-30 23:47:42 3961 5

原创 Linux中安装python3，并解决出现的yum源/404 找不到问题

Linux中安装python3本次操作是在centos7中完成，下文中也附带出现的错误及解决1、安装python环境安装python环境保证linux服务器上的python版本不被影响。（Linux中自带的版本为python2.x），注意一定不要卸载python2，在很多的底层操作还是有用到的地方的python 3.7首先测试：获得本地IP地址，使用win进行测试，是否正常通信1、安装依赖包yum install zlib-devel bzip2-devel openssl-devel

2020-11-30 23:47:10 1853 4

原创 reids缓存数据库-zset（有序集合）以及常用操作

reids缓存数据库-zset（有序集合）操作有序集合，在集合的基础上，为每个元素添加分值再排序；而元素的排序需要根据另一个值来进行比较所以，对于有序集合，每个元素都有两个值，即：值和分数，分数是专门来用来排序的zadd(name, *args, **kwargs)在name对应的有序集合中添加元素如：# zadd(‘zz’, ‘n1’, 1, ‘n2’, 2)# 或# zadd(‘zz’, n1=11, n2=22)zcard(name)获取name对应的有序集合元素的数量

2020-11-29 22:49:12 724 4

原创 redis缓存数据库-set集合操作

redis缓存数据库-set集合操作redis的集合允许用户将任意多个各个不相同的元素存储到集合里面，这些元素既可以是文本数据，也可以是二进制数据。与列表相比，集合有以下两个明显的区别。列表可以存储重复元素，而集合只会存储非重复元素列表以有序方式存储元素，而集合则以无序的方式存储这两种的差异还与其特性带来的复杂度有关：列表中Linset 和LREM这样的命令在使用过程中，即使命令针对单个列表，程序也会遍历整个表，复杂度都为O（N）对于集合来说，本身为无序，所有针对单个元素的集合命令都不需要遍历

2020-11-29 22:41:49 452 1

原创 redis缓存数据库-List操作

redis缓存数据库-List操作list（列表），redis中的List在内存中按照一个name对应一个List来存储lpush(name,values)在name对应的list中添加元素，每个新的元素都添加到列表的最左边如：# r.lpush(‘oo’, 11,22,33)# 保存顺序为: 33,22,11扩展：# rpush(name, values) 表示从右向左操作lpushx(name,value)在name对应的list中添加元素，只有name已经存在时，值添加到

2020-11-28 22:04:44 2113

原创 redis缓存数据库-散列（hash）操作

redis缓存数据库-散列（Hash）操作hash表现形式上有些像python中dict，可以存储一组关联性比较强的数据，redis中hash在内存中的存储格式如下图hset(name, key, value)name对应的hash中设置一个键值对（不存在，则创建；否则，修改）参数：# name，redis的name# key，name对应的hash中的key# value，name对应的hash中的value注：# hsetnx(name, key, value),当name对应的

2020-11-28 21:44:57 2141 22

原创 redis缓存数据库-String操作

redis缓存数据库-string操作1. string存储原理redis中的String在内存中按照一个name对应一个value来存储，如图set (name, value, ex=None, px=None, nx=Flase, xx = False)在Redis中设置值，默认，不存在则创建，存在则修改参数：ex，过期时间（秒）px，过期时间（毫秒）nx，如果设置为True，则只有name不存在时，当前set操作才执行xx，如果设置为True，则只有name存在时，岗前set操作

2020-11-28 00:21:23 1118 1

原创 redis缓存数据库-入门（2）

redis数据库介绍redis是业界主流的key-value nosql 数据库之一。和Memcached类似，它支持存储的value类型相对更多，包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash（哈希类型）。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作，而且这些操作都是原子性的。在此基础上，redis支持各种不同方式的排序。与memcached一样，为了保证效率，数据都是缓存在内存中。区别

2020-11-26 23:40:48 4076 27

原创 redis缓存数据库-入门（1）

缓存数据库介绍NoSQL(NoSQL = Not Only SQL )，意即“不仅仅是SQL”，泛指非关系型的数据库,随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。noSQL数据库的四大分类1、键值(Key-Value)存储

2020-11-26 23:19:25 1819 1

原创 python 爬虫（XPATH使用）

python 爬虫（XPATH使用）XPATH简介：Xpath(XML PAth Language)是一门在XML文档中查找信息的语言，可用来在XML文档中对元素和属性进行遍历。 W3School官方文档： https://www.w3school.com.cn/xpath/index.asp下载LXMLpip install lxmlpip install lxml -i https://pypi.tuna.tsinghua.edu.cn/simple如果出现网络延迟，可使用清华源进行安装

2020-11-24 14:45:34 1111 2

原创 python爬虫—Requests

python爬虫—Requests目录python爬虫—Requests一、Requests简介1、requests简介2、安装方式二、GET请求1、通用爬虫（全页面进行保存）text和content的使用情况2、params属性提取参数3、headers属性三、POST请求1、data属性2、headers属性一、Requests简介1、requests简介Urllib 和 Requests 模块是发起 http 请求最常见的模块。虽然 Python 的标准库中 urllib 模块已经包含了平常

2020-11-20 23:40:50 1023 1

pseudonym