立项之聚类 by xzc
之前我们爬取codeforces, 得到了所有题目的算法标签信息,以Excel的形式存放。现在我们要对题目进行聚类。
得到的表格是这样的形式:
一共有3205道题目。
我们可以发现,没到题目可能有不止一个算法标签。所以,要对这些题目进行聚类,首先,我们要搞清楚这个网站上面的题目到底有多少种算法标签。
-
我们用txt文本文件存放所有提米的算法标签Tags,从Excel中直接复制,粘贴到文本文件TagNames.txt中
-
然后我们用一段python代码来统计所有的算法标签
AllName = set() #用于存放数据的集合 with open('TagsName.txt', 'r+',encoding='utf-8') as f: # 文件读入 for line in f.readlines(): #每次从文件中读取一行字符串 List = line.split(',') #讲读到的一行字符串用','切分为几个子串,生成一个列表 for i in range(0,len(List)): #遍历字符串列表 List[i] = List[i].strip() #去除列表中的每个字符串首尾的空格 AllNa