pandas 数据分析思维-数据标记从模糊到精确

菜鸟杜

已于 2024-06-21 10:00:46 修改

阅读量185

点赞数 1

文章标签： pandas 数据分析数据挖掘

于 2024-06-17 20:33:06 首次发布

本文链接：https://blog.csdn.net/chinacnd/article/details/139753524

版权

数据标记的核心任务是对信息进行有序分类，这一过程往往涉及基于特定列或多列数据的决策判断。这些判断包括但不限于关键词的模糊匹配、精确匹配、单列分析以及多列综合分析等方法。在着手实施此类工作之前，我们必须对不同判断方式的重要性进行排序，以确定处理优先级。

首先，我们应当从模糊匹配过渡到精确匹配。这意味着，我们首先识别包含指定关键词的数据项，随后再对那些与关键词完全匹配的数据项进行分析。

import pandas as pd

# 读取数据文件
data = pd.read_csv('your_data_file.csv')

# 指定关键词
keyword = 'your_keyword'

# 识别包含关键词的数据项
filtered_data = data[data['column_name'].str.contains(keyword)]

# 对完全匹配关键词的数据项进行分析
exact_match_data = filtered_data[filtered_data['column_name'] == keyword]

# 输出结果
print(exact_match_data)

其次，我们需要对关键词进行权重排序。在这一过程中，应将权重较低的关键词置于前列以便先行判断，而权重较高的关键词则后置以供后续评估。例如，在处理与“车”相关的数据时，可以按照“车-汽车-小汽车-新能源小汽车”这样的权重顺序来进行排序。

步骤

读取数据：首先，我们需要读取包含车辆相关信息的数据。
定义权重：为不同的车型定义相应的权重。例如，“车”的权重最高，其次是“汽车”，然后是“小汽车”，最后是“新能源小汽车”。
添加权重列：在数据中添加一个新的列，用于存储每行数据的权重。
排序数据：基于新定义的权重列对数据进行排序。

示例代码

假设我们的数据存储在一个CSV文件中，其中有一列type表示车辆的类型，我们将其读入一个DataFrame，并按照上述权重进行排序：

import pandas as pd

# 读取数据
df = pd.read_csv('vehicles_data.csv')

# 定义一个函数来分配权重
def assign_weight(vehicle_type):
    if vehicle_type == '车':
        return 4
    elif vehicle_type == '汽车':
        return 3
    elif vehicle_type == '小汽车':
        return 2
    elif vehicle_type == '新能源小汽车':
        return 1
    else:
        return 0  # 其他类型或未知类型

# 应用这个函数到'type'列，创建新的权重列
df['weight'] = df['type'].apply(assign_weight)

# 按权重列排序，权重高的在前
df_sorted = df.sort_values(by='weight', ascending=False)

# 显示排序后的结果
print(df_sorted)

最后，在跨列判断时，我们同样需要遵循权重原则，优先处理权重较小的列，之后再处理权重较大的列。举例来说，在分析个人信息时，可以按照“性别-区域-年龄”的顺序来进行数据处理。

假设我们有一个包含“性别”，“区域”，和“年龄”列的数据集，且我们已经设定了这些列的处理优先级，依次为“性别”优先于“区域”，而“区域”又优先于“年龄”。接下来，我将展示如何使用pandas来依照这一顺序处理数据。

步骤与示例代码

读取数据：首先，我们需要将数据读入一个pandas DataFrame。
定义处理函数：对于每个属性，定义处理函数，进行所需的数据筛选或转换。
按优先级顺序应用函数：依据设定的优先级顺序，从高到低应用处理函数。

示例代码

import pandas as pd

# 读取数据
df = pd.read_csv('personal_info_data.csv')

# 定义处理函数
def process_gender(df):
    # 例如，筛选出所有男性
    return df[df['gender'] == 'male']

def process_region(df):
    # 例如，筛选出特定区域的数据
    return df[df['region'].isin(['region1', 'region2'])]

def process_age(df):
    # 例如，筛选出年龄大于30的记录
    return df[df['age'] > 30]

# 应用处理函数
df_gender = process_gender(df)
df_region = process_region(df_gender)  # 注意这里的输入是上一步的输出
df_age = process_age(df_region)  # 同样，输入是上一步的输出

# 最终处理后的DataFrame
df_final = df_age

# 显示结果
print(df_final)

通过上述步骤，我们可以确保数据处理过程的逻辑性、准确性和高效性，从而提升数据标记的专业性和可靠性。