KNN算法 将String类型的特征变为int型

本文介绍如何在KNN算法中处理字符串特征,通过将'occupation'这样的字符串特征转换为整型,以便进行欧氏距离计算。转换过程对于确保算法正确性和效率至关重要。
摘要由CSDN通过智能技术生成

KNN算法中, 利用各个feature计算欧氏距离时,各个特征值必须是字符型

下列代码将’occupation’这一String类型转化为int型

import numpy as np
import pandas as pd
from pandas import Series, DataFrame
# 使用dic创建DataFrame
dic = {
   
    
    'age': [23, 22, 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
KNN是一种机器学习算法,主要用于分类和回归。它的工作原理是将每个数据点分配到它最接近的k个邻居之一,然后利用这些邻居的标签来预测新数据点的标签。 以下是使用Java实现KNN算法的示例代码: ```java import java.util.*; public class KNN { // 使用欧几里得距离计算两个数据点之间的距离 public static double euclideanDistance(double[] x, double[] y) { double distance = 0; for (int i = 0; i < x.length; ++i) { distance += Math.pow(x[i] - y[i], 2); } return Math.sqrt(distance); } // 在给定的训练集中查找k个最近邻居 public static int[] nearestNeighbors(double[] x, double[][] data, int k) { double[] distances = new double[data.length]; // 计算x和数据集中每个点的距离 for (int i = 0; i < data.length; ++i) { distances[i] = euclideanDistance(x, data[i]); } // 找到k个最近邻居的索引 int[] neighbors = new int[k]; for (int i = 0; i < k; ++i) { int index = 0; double min = distances[0]; for (int j = 1; j < distances.length; ++j) { if (distances[j] < min) { index = j; min = distances[j]; } } neighbors[i] = index; distances[index] = Double.MAX_VALUE; } return neighbors; } // 对x进行分类 public static String classify(double[] x, double[][] data, String[] labels, int k) { // 找到k个最近邻居的索引 int[] neighbors = nearestNeighbors(x, data, k); // 统计每个类的数量 Map<String, Integer> counts = new HashMap<>(); for (int i = 0; i < neighbors.length; ++i) { String label = labels[neighbors[i]]; counts.put(label, counts.getOrDefault(label, 0) + 1); } // 找到数量最多的类 String result = null; int maxCount = -1; for (String label : counts.keySet()) { int count = counts.get(label); if (count > maxCount) { result = label; maxCount = count; } } return result; } public static void main(String[] args) { double[][] data = new double[][]{{1, 1}, {2, 2}, {3, 3}, {4, 4}, {5, 5}}; String[] labels = new String[]{"A", "A", "B", "B", "B"}; double[] x = new double[]{2.5, 2.5}; int k = 3; String result = classify(x, data, labels, k); System.out.println("分类结果:" + result); } } ``` 在这个示例中,我们使用欧几里得距离作为两个数据点之间的距离度量,然后使用nearestNeighbors方法找到最近的k个邻居,最后使用classify方法对新数据点进行分类。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值