一、背景:统计一类群体信息,其中每个人有几种属性。
二、目标:
1. 统计每人的类别与介绍;
2. 统计每种类别的人的介绍;
3. 统计这几种类别的并集的人的介绍。
三、可圈可点的步骤:
1. 在官网或google中找出每类的人名;
2. 将姓名插入excelI表前,记得把两个名字中间时而存在的两个空格去掉(这次忘记去除,导致两字姓名爬取不到,对后面的去重也带来的麻烦);
3. 在matlab中用union计算几类的人名列表;
4. 当然,在几个类别中,名字最全的就是大并集喽,所以只要计算好大并集中每个人的介绍,就可以实现最后针对每个类别的挑选了;
5. 发现了神奇的百度百科,大概率可以爬取到每个人的介绍,当然,有时候还是会认错人的。用pycharm编辑python,把每个名字替换在网址中的对应位置,有异常时跳过,默默地爬完所有的信息。
6. 进行信息的增添删改,把错的和少的专家信息补全。
7. 在excel里写了一个神奇的函数:=VLOOKUP(A2,并集!$G$2:H305,2,0),可以自动填补在列表中与某一单元格内容相同的对应信息,它的神奇效果你敢信?
8. 大公告成!