2024年大数据最全【数学建模学习笔记【集训十天】之第二天】(2)，意外的惊喜-CSDN博客

本文链接：https://blog.csdn.net/2401_84615524/article/details/138459030

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

2 NumPy Ndarray 对象

NumPy 最重要的一个特点是其 N 维数组对象 ndarray，它是一系列同类型数据的集合，以 0 下标为开始进行集合中元素的索引。

ndarray 对象是用于存放同类型元素的多维数组，其中的每个元素在内存中都有相同存储大小的区域。
ndarray 对象采用了数组的索引机制，将数组中的每个元素映射到内存块上，并且按照一定的布局对内存块进行排序（行或列）

ndarray 内部由以下内容组成：

一个指向数据（内存或内存映射文件中的一块数据）的指针；
数据类型或 dtype，描述在数组中的固定大小值的格子；
一个表示数组形状（shape）的元组，表示各维度大小的元组；
一个跨度元组（stride），其中的整数指的是为了前进到当前维度下一个元素需要"跨过"的字节数。

3 Numpy 数据类型：

numpy 支持的数据类型比 Python 内置的类型要多很多，基本上可以和 C 语言的数据类型对应上，其中部分类型对应为 Python 内置的类型.

常用 NumPy 基本类型

名称描述
bool_ :【布尔型数据类型（True 或者 False）】
int_ : 【默认的整数类型（类似于 C 语言中的 long，int32 或 int64）】
intc :【与 C 的 int 类型一样，一般是 int32 或 int 64】
intp :【用于索引的整数类型（类似于 C 的 ssize_t，一般情况下仍然是 int32 或 int64）】
int8 :【字节（-128 to 127）】
int16 :【整数（-32768 to 32767）】
int32 :【整数（-2147483648 to 2147483647）】
int64 ：【整数（-9223372036854775808 to 9223372036854775807）】
uint8 ：【无符号整数（0 to 255）】
uint16 ：【无符号整数（0 to 65535）】
uint32 ：【无符号整数（0 to 4294967295）】
uint64 ：【无符号整数（0 to 18446744073709551615）】
float_ float64 ：【类型的简写】
float16 ：【半精度浮点数，包括：1 个符号位，5 个指数位，10 个尾数位】
float32 ：【单精度浮点数，包括：1 个符号位，8 个指数位，23 个尾数位】
float64 ：【双精度浮点数，包括：1 个符号位，11 个指数位，52 个尾数位】
complex_ complex128：【类型的简写，即 128 位复数】
complex64 ：【复数，表示双 32 位浮点数（实数部分和虚数部分）】
complex128 ：【复数，表示双 64 位浮点数（实数部分和虚数部分）】

4 Numpy 数组属性

在 NumPy中，每一个线性的数组称为是一个轴（axis），也就是维度（dimensions）。

比如说，二维数组相当于是两个一维数组，其中第一个一维数组中每个元素又是一个一维数组。

相关代码学习、如下

# -\*- coding = utf-8 -\*-
# @Time : 2022/6/28 16:52
# @Author : lxw\_pro
# @File : Numpy-数组属性-4.py
# @Software : PyCharm


# NumPy 的数组中比较重要 ndarray 对象属性有：
'''
属性 说明
ndarray.ndim 秩，即轴的数量或维度的数量
ndarray.shape 数组的维度，对于矩阵，n 行 m 列
ndarray.size 数组元素的总个数，相当于 .shape 中 n\*m 的值
ndarray.dtype ndarray 对象的元素类型
ndarray.itemsize ndarray 对象中每个元素的大小，以字节为单位
ndarray.flags ndarray 对象的内存信息
ndarray.real ndarray元素的实部
ndarray.imag ndarray 元素的虚部
ndarray.data 包含实际数组元素的缓冲区，由于一般通过数组的索引获取元素，所以通常不需要使用这个属性。

'''

# ndarray.ndim

# ndarray.ndim 用于返回数组的维数，等于秩。
import numpy as np

lxw = np.arange(36)
print(lxw.ndim)             # a 现只有一个维度

# 现调整其大小
a = lxw.reshape(2, 6, 3)    # 现在拥有三个维度
print(a.ndim)


print()
# ndarray.shape
# ndarray.shape 表示数组的维度，返回一个元组，这个元组的长度就是维度的数目，即 ndim 属性(秩)。比如，一个二维数组，其维度表示"行数"和"列数"。

# ndarray.shape 也可以用于调整数组大小。

import numpy as np

lxw2 = np.array([[169, 175, 165], [52, 55, 50]])
print(lxw2.shape)   # shape: 数组的维度


print()
# 调整数组大小:
import numpy as np

lxw3 = np.array([[123, 234, 345], [456, 567, 789]])
lxw3.shape = (3, 2)
print(lxw3)


print()
# NumPy 也提供了 reshape 函数来调整数组大小:
import numpy as np

lxw4 = np.array([[23, 543, 65], [32, 54, 76]])
c = lxw4.reshape(2, 3)  # reshape: 调整数组大小
print(c)


print()
# ndarray.itemsize
# ndarray.itemsize 以字节的形式返回数组中每一个元素的大小。

# 例如，一个元素类型为 float64 的数组 itemsize 属性值为 8(float64 占用 64 个 bits,
# 每个字节长度为 8，所以 64/8，占用 8 个字节），又如，一个元素类型为 complex32 的数组 item 属性为 4（32/8）

import numpy as np

# 数组的 dtype 为 int8（一个字节）
x = np.array([1, 2, 3, 4, 5], dtype=np.int8)
print(x.itemsize)

# 数组的dtypy现在为float64(八个字节）
y = np.array([1, 2, 3, 4, 5], dtype=np.float64)
print(y.itemsize)   # itemsize: 占用字节个数


# 拓展：
# 整体转化为整数型
print(np.array([3.5, 6.6, 8.9], dtype=int))

# 设置copy参数，默认为True
a = np.array([2, 5, 6, 8, 9])
b = np.array(a)                     # 复制a
print(b)                            # 控制台打印b
print(f'a: {id(a)}, b: {id(b)}')     # 可打印出a和b的内存地址


print('='\*20)
# 类似于列表的引用赋值
b = a
print(f'a: {id(a)}, b: {id(b)}')


# 创建一个矩阵
lxw5 = np.mat([1, 2, 3, 4, 5])
print(type(lxw5))   # 矩阵类型： <class 'numpy.matrix'>

# 复制出副本，并保持原类型
yy = np.array(lxw5, subok=True)
print(type(yy))

# 只复制副本，不管其类型
by = np.array(lxw5, subok=False)    # False: 使用数组的数据类型
print(type(by))

print(id(yy), id(by))


print('='\*20)
# 使用数组的copy()方法：
c = np.array([2, 5, 6, 2])
cp = c.copy()
print(id(c), id(cp))


print()
# ndarray.flags
'''
ndarray.flags 返回 ndarray 对象的内存信息，包含以下属性：

属性 描述
C\_CONTIGUOUS (C) 数据是在一个单一的C风格的连续段中
F\_CONTIGUOUS (F) 数据是在一个单一的Fortran风格的连续段中
OWNDATA (O) 数组拥有它所使用的内存或从另一个对象中借用它
WRITEABLE (W) 数据区域可以被写入，将该值设置为 False，则数据为只读
ALIGNED (A) 数据和所有元素都适当地对齐到硬件上
UPDATEIFCOPY (U) 这个数组是其它数组的一个副本，当这个数组被释放时，原数组的内容将被更新

'''

import numpy as np

lxw4 = np.array([1, 3, 5, 6, 7])
print(lxw4.flags)   # flags: 其内存信息

学习来源于哔哩哔哩和菜鸟教程
学习可自行点击：【菜鸟教程】
【2022B站最新最好的数据分析课程推荐】

Pandas学习

当然，做这些的前提是首先把文件准备好

文件准备

文件太长，故只截取了部分，当然，此文件可自行弄类似的也可以！
在这里插入图片描述

1 pandas新增数据列

在进行数据分析时，经常需要按照一定条件创造新的数据列，然后再进一步分析

直接赋值
df.apply()方法
df.assign()方法
按条件进行分组分别赋值

# -\*- coding = utf-8 -\*-
# @Time : 2022/6/28 16:20
# @Author : lxw\_pro
# @File : pandas新增数据列.py
# @Software : PyCharm

# 1:
import pandas as pd

# 读取数据
lxw = pd.read_csv('sites.csv')

# print(lxw.head())

df = pd.DataFrame(lxw)

# print(df)

df['lrl'] = df['lrl'].map(lambda x: x.rstrip('%'))

# print(df)

df.loc[:, 'jf'] = df['yye'] - df['sku\_cost\_prc']

# 返回的是Series
# print(df.head())


# 2:
def get\_cha(n):
    if n['yye'] > 5:
        return '高价'


![img](https://img-blog.csdnimg.cn/img_convert/9987952b1cfebcbe6f9fce4f96b4eeca.png)
![img](https://img-blog.csdnimg.cn/img_convert/03afabe541ebfb25b84202e31637f894.png)

**网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。**

**[需要这份系统化资料的朋友，可以戳这里获取](https://bbs.csdn.net/topics/618545628)**


**一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**

= pd.read_csv('sites.csv')

# print(lxw.head())

df = pd.DataFrame(lxw)

# print(df)

df['lrl'] = df['lrl'].map(lambda x: x.rstrip('%'))

# print(df)

df.loc[:, 'jf'] = df['yye'] - df['sku\_cost\_prc']

# 返回的是Series
# print(df.head())


# 2:
def get\_cha(n):
    if n['yye'] > 5:
        return '高价'


[外链图片转存中...(img-W7XBTu0o-1714867914514)]
[外链图片转存中...(img-Bkv58FCM-1714867914514)]

**网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。**

**[需要这份系统化资料的朋友，可以戳这里获取](https://bbs.csdn.net/topics/618545628)**


**一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**