Python数据分析必备知识(2)

Taki~

已于 2023-06-24 10:24:38 修改

阅读量72

点赞数

文章标签： python 数据分析开发语言

于 2023-05-30 14:14:31 首次发布

本文链接：https://blog.csdn.net/Yoki___/article/details/130947340

版权

本文介绍了如何使用Python的logging模块添加日志信息，包括创建日志器、处理器和格式器，以及日志的级别。另外，展示了如何判断DataFrame是否为空，以及密码的加密和解密方法，包括使用base64编码。还提到了如何将Python脚本打包成exe文件，并探讨了Pandas中merge,concat,join的拼接方法。最后，文章提供了一个基于特定条件更新数据的例子，涉及数据排序和填充。

摘要由CSDN通过智能技术生成

1.二分钟快速给项目添加日志信息

"""
给项目添加日志信息
"""
# 导Python内置包
import logging
import time   # 方便用日期命名日志

# 创建一个日志器logger
logger = logging.getLogger(__name__)

# 给日志器设置日志打印级别
logger.setLevel(logging.INFO)
# 创建一个格式器，用于控制日志输出格式
fm = logging.Formatter(fmt="当前时间为%(asctime)s,文件是%(filename)s,行号是%(lineno)d,日志级别是%(levelname)s,"
                              "描述信息是%(message)s",datefmt='%Y/%m/%d %H:%M:%S')
# 创建一个文件处理器，写入日志
fh = logging.FileHandler(filename="./{}log.txt".format(time.strftime("%Y_%m_%d %H_%M_%S",time.localtime())),encoding='utf-8')
# 关联日志器——格式器——文件处理器
logger.addHandler(fh)
fh.setFormatter(fm)
# 设置文件处理器打印日志的级别
# fh.setLevel(logging.INFO)

# 如果想打印日志在终端，可以添加SteamHandler()端处理器
st = logging.StreamHandler()
# 设置格式
st_fm = logging.Formatter(fmt='%(asctime)s - %(threadName)s[line:%(lineno)d] - %(levelname)s: %(message)s')
# 把日志器——处理器——格式器关联
logger.addHandler(st)
st.setFormatter(st_fm)
# 设置等级
st.setLevel(logging.INFO)


logger.debug('测试debug')
logger.info('测试info')
logger.warning('测试warning')
logger.error('测试error')
logger.critical('测试critical')

示图：

需要补充的日志理论知识：

"""
一、日志
1、定义：跟踪软件运行时产生的事件的方法(跟踪器)
2、作用：调试程序、定位问题，数据分析
二、如何实现日志收集
1、实现方式：内置模块logging
2、logging模块的基本应用:四大组件
    (1)日志器logger 给所有的应用程序提供接口
    (2)处理器handler 决定在不同端输出
    (3)格式器formater决定日志内容(日志包含的事件、行号、信息描述、信息级别）
    (4)过滤器filter对信息进行筛选，保留感兴趣的信息
3、四大组件的关系
一个日志器可以有多个处理器，一个处理器可以有各自的格式器和过滤器
三、日志级别(从低到高)
DEBUG:调试信息
INFO:关键事件描述
WARNING:警告信息
ERROR:错误信息
CRITICAL:严重错误
FATAL:致命错误
四、日志输出端：
1.指定位置的日志文件
2.控制台
五、输出日志级别是按照日志输出结拜控制还是处理器输出级别控制？
————输出日志级别是优先按照日志器的输出级别输出，其次再按照处理器输出级别输出
六、日志记录的特点
1.定义了INFO级别，例如logger.setLevel(logging.INFO),则应用程序里面所有的DEBUG级别的信息不被打印，也就是大于或者等于的设定级别的日志才会输出
2.日志记录的级别有继承性，子类会继承父类的所有日志级别

"""

2.DataFrame类型数组如何判断为空呢

"""
DataFrame类型数组如何判断为空呢
—————定义了列，里面没有数据仍为空
——————表中没数据，为空
"""
import pandas as pd

table_a = pd.DataFrame()
table_b = pd.DataFrame(columns=['测试1','测试2'],dtype=object)
table_c = pd.DataFrame([[4,9]]*3)
table_d = pd.DataFrame({
    '姓名':['大','搭','达','答'],
    '时间':[199991101,19991102,19991103,19991104],
    '性别':['男','男','女','男'],
})
print('&'*30)
print(table_a)
print('&'*30)
print(table_b)
print('&'*30)
print(table_c)
print('&'*30)
print(table_d)
print('&'*30)

if table_a.empty:
    print('table_a是空的')
if table_b.empty:
    print('table_b是空的')
if table_c.empty:
    print('table_c是空的')
if table_d.empty:
    print('table_d是空的')

示图：

3.密码的加密与解密

"""
密码加解密

原理：
.encode():原文本转二进制
.decode():二进制转源文本
"""
import base64

pwd = input('请输入密码：')

# 原文本-->二进制-->base64.b64encode()进行加密,@#$%是为了加盐
# new_pwd = base64.b64encode(('!@#$%' + pwd).encode())  # 输入231,生成：b'IUAjJCUyMzE='
# 去掉开头的b
new_pwd = base64.b64encode(('!@#$%' + pwd).encode()).decode()   # # 输入231,生成：'IUAjJCUyMzE='
# wb,以二进制格式打开一个文件用于写入。如果该文件已存在则将其覆盖。如果该文件不存在，创建新文件
with open ('password.txt','wb') as f:
    f.write(new_pwd.encode())


# 解密
with open('password.txt','r') as f:
    pwd = f.read()

print('mi',pwd)  # mi IUAjJCUyMzE=
print(type(pwd))  # <class 'str'>
print('mi1',pwd.encode()) # mi1 b'IUAjJCUyMzE='
# 用base64.b64decode解
# pwd1 = base64.b64decode(pwd.encode())
# print(pwd1)  # 输入231,生成：b'!@#$%231'
# 去b操作
pwd1 = base64.b64decode(pwd.encode()).decode()
print(pwd1)  # 输入231,生成：!@#$%231
# 去掉加盐，切掉前五位
pwd2 = pwd1[5:]
print(pwd2)

示图

4.制作简单加密器

把加密过程生成一个exe文件，点击exe输入密码即可完成加密，在txt文件获取加密后的密码

1.需要用到的py文件,例如demo21_1.py文件

import base64

pwd = input('请输入密码：')
new_pwd = base64.b64encode(('!@#$%' + pwd).encode()).decode()
with open ('password.txt','wb') as f:
    f.write(new_pwd.encode())

2.如何打包

1.第一步安装Python代码转成exe的工具包pyinstaller

pip install pyinsatller
# 或者
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyinstaller

2.执行打包命令

pyinstaller -F xxx.py 
# 或者
pyinstaller -D xxx.py
# -F 表示打包成文件
# -D 表示打包成文件夹
# --noconsel 以无提示模式启动安装程序
# -i 加入图标，图标用的ico格式

目录结构图

效果图

需要注意的是：如果添加图标时，想要获取.ico图片，不建议直接改.jpg图片的后缀名，这样可能会报错。

找格式工厂或者其他软件来获取.ico图标。

5.A列相同的，按照B列排序，用最新的C列、D列数据替换之前的数据

"""
用类别排序后，按编号进行分组，每组种判断最后一条数据的位置是不是上海，如果是，用这组最后一条的数据替换这组其余的数据，如果不是，不做处理。

pad/ffill:用前一个非缺失值去填充该缺失值
backfill/bfill:用下一个非缺失值填充该缺失值
None:指定一个值去替换缺失值(缺省默认这种方式)
limit参数：限制填充个数
axis参数：修改填充方向

"""
import os
import numpy as np
import pandas as pd
file_path = r'demo22.xlsx'
table = pd.read_excel(file_path)
print(table.shape[0])
test1 = table.sort_values('类别',ascending=False)

print('按照类别排序效果如下')
# print(test1)
print('再按照编号排序，生成了一个对象')
test_group = test1.groupby('编号')
# print(test_group)

# 创建两个空表
empty_test1 = pd.DataFrame(columns=table.columns,dtype=object)
empty_test2 = pd.DataFrame(columns=table.columns,dtype=object)

for group_name,df_group in test1.groupby('编号'):
    # print(group_name)  每一行的序号
    # print('展现以类别排序之后，按编号分组结果')
    print(df_group)   # 每一行的数据
    # print('展示每组最后一条数据')
    # print(df_group.tail(1))
    # df = df_group.tail(1)
    # print(df['位置'])
    # print(df['位置'].any())
    # print(df['位置'].item())
    # print(df['位置'].all())

    # 如果每组的最后一条数据是北京，把这一组的所有位置全部变成上海
    if df_group.tail(1)['位置'].any() == '上海':
        # iloc[] 包头不包尾
        # df_group.iloc[1:,1:3] = np.nan # 保留每组的第一条数据，其他第1索引，第2索引位置处设为nan
        # df_group.fillna(method='ffill',inplace=True)
        df_group.iloc[:-1,1:3] = np.nan   # 保留每组的最后一条数据，其他第1索引，第2索引位置处设为nan
        # print(df_group)
        df_group.fillna(method='bfill',inplace=True)
        """
                         编号   位置 工作类型 性别         时间     类别
            0  13123  NaN  NaN  女 2022-11-06  2023款
            5  13123  NaN  NaN  女 2022-11-05  2023款
            3  13123  NaN  NaN  女 2022-11-03  2021款
            7  13123   上海   全职  男 2022-11-08  2021款
        """
        # print(df_group)
        # 符合条件的累加
        empty_test1 = pd.concat([empty_test1,df_group])
    else:
        # 不符合条件的也累加
        empty_test2 = pd.concat([empty_test2, df_group])
total_test = pd.concat([empty_test1,empty_test2],ignore_index=True)
print(total_test)

file_path = r'total_test.xlsx'
if (os.path.exists(file_path)):
    os.remove(file_path)
total_test.to_excel(file_path,index=False)

示例图如下：

6.Pandas中merge,concat,join三种拼接方法实战对比

6.1 concat

新建concat_1.xlsx和concat_2.xlsx，内容如下

"""
concat() 方法适用于两个表长或者宽度不匹配，需要强行填充
"""
import pandas as pd

file_path1 = r'concat_1.xlsx'
file_path2 = r'concat_2.xlsx'
table_a = pd.read_excel(file_path1)
table_b = pd.read_excel(file_path2)

# 默认axis=0 列拼接，当axis=1时，行拼接
# result1 = pd.concat([table_a,table_b])
result1 = pd.concat([table_a,table_b],keys='产品',axis=0)
print('result1')
print(result1)
result2 = pd.concat([table_a,table_b],axis=1)
print('result2')
print(result2)

效果如下

6.2 join

新建join_1.xlsx和join_2.xlsx,内容如下

"""
两个表长度不匹配，需要强行填充
————join用法：基于index连接dataframe的列
——————how:有四种连接方式：left,right,outer,inner,默认为left
——————on:标签的列表，根据某个字段进行拼接，必须存在与两个DataFrame中，若未同时存在，则需要同时使用left_on和right_on
——————lsuffix:字符串，左侧数据中重叠列使用的后缀
——————rsuffix:字符串，右侧数据中重叠列使用的后缀
——————sort 布尔类型，对非连接轴进行排序


"""

import pandas as pd

file_path1 = r'join_1.xlsx'
file_path2 = r'join_2.xlsx'
table_a = pd.read_excel(file_path1)
table_b = pd.read_excel(file_path2)
result = table_a.join(table_b,how='outer',lsuffix='2')
print(result)
result1 = table_b.join(table_a,how='outer',lsuffix='2')
print(result1)

6.3 merge[重点]

新建merge_1.xlsx和merge_2.xlsx,内容如下

"""
两个表长度不匹配，需要强行填充
————merge用法：基于相同的列进行拼接
——————它实现的数据库的join操作

"""
import pandas as pd

file_path1 = r'merge_1.xlsx'
file_path2 = r'merge_2.xlsx'
table_a = pd.read_excel(file_path1)
table_b = pd.read_excel(file_path2)

# 默认参数how是inner内连接，并且会按照相同的字段key进行合并，即等价于on='key'
result = pd.merge(table_a,table_b)
# 相当于result = pd.merge(table_a,table_b，on='产品')
print(result)

高阶用法

新建merge_3.xlsx和merge_4.xlsx,内容如下

执行代码：

"""
当两个表没有相同字段时的合并
"""

import pandas as pd

file_path1 = r'merge_3.xlsx'
file_path2 = r'merge_4.xlsx'
table_a = pd.read_excel(file_path1)
table_b = pd.read_excel(file_path2)

# 默认参数how是inner内连接，并且会按照相同的字段key进行合并，即等价于on='key'
result = pd.merge(table_a,table_b,left_on='产品',right_on='名称',how='left')
# 相当于result = pd.merge(table_a,table_b，on='产品')
print('result')
print(result)
result1 = pd.merge(table_a,table_b,left_on='产品',right_on='名称',how='right')
print('result1')
print(result1)

效果如下

总结：
1.merge基于相同的columns进行合并，类似于SQL中的join
2.join基于index连接dataframe的列
3.concat用于给dataframe添加行或者列
4.append方法不建议使用，在操作海量数据时，可以在终端打印，但是写不到excel的问题，而且在未来版本中，append函数已经弃用。

- END -

除上述资料外，还附赠全套Python学习资料，包含面试题、简历资料等具体看下方。

👉CSDN大礼包🎁：全网最全《Python学习资料》免费赠送🆓！（安全链接，放心点击）

学好 Python 不论是就业还是做副业赚钱都不错，但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！

一、Python学习路线

python学习路线图1
在这里插入图片描述

二、Python基础学习

1. 开发工具

2. 学习笔记

在这里插入图片描述

3. 学习视频

在这里插入图片描述

三、Python小白必备手册

四、数据分析全套资源

在这里插入图片描述

五、Python面试集锦

1. 面试资料

在这里插入图片描述

2. 简历模板

在这里插入图片描述

因篇幅有限，仅展示部分资料，添加上方即可获取

Taki~

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python数据分析必备知识(2)

需要注意的是：如果添加图标时，想要获取.ico图片，不建议直接改.jpg图片的后缀名，这样可能会报错。把加密过程生成一个exe文件，点击exe输入密码即可完成加密，在txt文件获取加密后的密码。新建concat_1.xlsx和concat_2.xlsx，内容如下。新建merge_1.xlsx和merge_2.xlsx,内容如下。新建merge_3.xlsx和merge_4.xlsx,内容如下。新建join_1.xlsx和join_2.xlsx,内容如下。找格式工厂或者其他软件来获取.ico图标。
复制链接

扫一扫