统计信息的小招

一、背景:统计一类群体信息,其中每个人有几种属性。


二、目标:

1. 统计每人的类别与介绍;

2. 统计每种类别的人的介绍;

3. 统计这几种类别的并集的人的介绍。

 

三、可圈可点的步骤:

1.  在官网或google中找出每类的人名;

2.  将姓名插入excelI表前,记得把两个名字中间时而存在的两个空格去掉(这次忘记去除,导致两字姓名爬取不到,对后面的去重也带来的麻烦);

3.    在matlab中用union计算几类的人名列表;

4.    当然,在几个类别中,名字最全的就是大并集喽,所以只要计算好大并集中每个人的介绍,就可以实现最后针对每个类别的挑选了;

5.    发现了神奇的百度百科,大概率可以爬取到每个人的介绍,当然,有时候还是会认错人的。用pycharm编辑python,把每个名字替换在网址中的对应位置,有异常时跳过,默默地爬完所有的信息。

6.    进行信息的增添删改,把错的和少的专家信息补全。

7.    在excel里写了一个神奇的函数:=VLOOKUP(A2,并集!$G$2:H305,2,0),可以自动填补在列表中与某一单元格内容相同的对应信息,它的神奇效果你敢信?

8.    大公告成!



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值