课题1
毕业设计里面涉及到人员相关度的计算,在这里我提出了一个猜想,大致如下:
现有数据:学生id、学生手机mac地址、时间戳、地点id
构想:通过学生mac地址某地点出现频次,构建频次矩阵,比如说现有六个地点,ABCDEF,某学生出现的频次分别为1、5、2、4、7、3,则[1,5,2,4,7,3]即为该学生在矩阵中的表现形式。(总的来说就是讲每个学生的出现频次规律抽象成一个向量,该向量由n个Term组成,每个Term都有一个权重,不同的频次根据学生在总矩阵中影响相关度的权重)
实现步骤:
1.数据预处理,建立空间向量模型,表现形式为:[[3,4,1,5,6,7],[6,4,5,5,2,1],......];
2.特征抽取完之后,对矩阵进行正则化处理。
3.计算余弦相似度。
image.png
分子:两个向量的点乘积
分母:两个向量的模的乘积
知识点:
1.利用python进行矩阵的正则化
正则化的过程是将每个样本缩放到单位范数(每个样本的范数为1),如果后面要使用如二次型(点积