K-近邻算法(KNN)
K nearest neighbour
0、导引
如何进行电影分类
众所周知,电影可以按照题材分类,然而题材本身是如何定义的?由谁来判定某部电影属于哪 个题材?也就是说同一题材的电影具有哪些公共特征?这些都是在进行电影分类时必须要考虑的问 题。没有哪个电影人会说自己制作的电影和以前的某部电影类似,但我们确实知道每部电影在风格 上的确有可能会和同题材的电影相近。那么动作片具有哪些共有特征,使得动作片之间非常类似, 而与爱情片存在着明显的差别呢?动作片中也会存在接吻镜头,爱情片中也会存在打斗场景,我们 不能单纯依靠是否存在打斗或者亲吻来判断影片的类型。但是爱情片中的亲吻镜头更多,动作片中 的打斗场景也更频繁,基于此类场景在某部电影中出现的次数可以用来进行电影分类。
欧几里得距离(Euclidean Distance)
代码
import numpy as np
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier
movie= pd.read_excel('../data/movies.xlsx',sheet_name=1) # ../data/ 为数据所在的位置
movie
X=movie[['武打镜头','接吻镜头']]
X
y=movie['分类情况']
y