结合小组讨论,又大体看了邹老师推荐的Mining Advisor-Advisee Relationships from Research Publication Networks感觉启发很大,有点初步的想法:
在挖掘方法上该文章给出了一种根据论文合作作者数据中发现师承关系的方法,如果两个人合作一篇文章,甲在该领域发表的相关文章比乙早,还考虑其他的因素(如时间段3~5年),那么甲就可能是乙的老师。并采取了一种概率的方式表现出来。感觉有一定的道理,但用概率的方式展现不一定符合某些用户的口味。启发很大,但有以下问题:如果导师扩展新的研究领域的话,在新的领域以前没有怕paper,突然招了个学生一起整了几篇,是否用该方法不一定有效。二是展现方式上是否有多种形式。
师承关系应该分为如下:
1.学术硕士导师
一起发表论文的可能性大,与老师以前的背景会很相关。如不继续攻读博士,可能发表论文就1~2篇
2.学术博士导师
一起发表论文的可能性非常大,与老师以前的背景会很相关。但如果有协助导师,导师是名义上的,就不一定。如不继续在学术圈,可能发表论文就5~6篇,并就在博士期间发表。如毕业后继续在学术圈,论文会持续较长的年限,但不一定与博士期间的论文在相同的领域。
3.工程硕士导师
有可能一起发表论文,可能发表论文就1~2篇,也可能没有。与老师以前的背景会很相关,也可能没相关性。
4.博士后合作导师
一起发表论文的可能性非常大,可能与老师以前的背景会很相关,也可能与博士后的以前的背景很相关,也可能都不相关。
5.企业导师
如在企业(如微软、IBM)研究机构,可能性很大。否则除非在个人博客中记载,很难有可供挖掘的信息
6.学术博士的协助导师
一起发表论文的可能性非常大,与老师以前的背景会很相关。
最好的挖掘工具应该将以上所有的关系都挖掘出来,但需要综合使用不同的方法。
可能的方法:
1.合作论文库挖掘法:信息量大,信息获取容易,可能包含师承关系的信息,但需要挖掘。
2.高校及研究机构的各教学单位和科研单位的网站:有时会有老师或学生,甚至是已经毕业的校友的信息,但不一定包含准确的信息。
3.个人博客挖掘法:准确性大,但不是所有的学者都写博客,写博客的学者,也不一定发布自己的老师和学生。
4.学位论文库挖掘法:如国图网、中国期刊网,范围大,非常准确,但数据不一定拿得到。
5.手工输入法:直接在师承关系网站中输入,并有一定的证明机制,准确性很大。但如何吸引学者自主填写。
如果用论文库,需要抽取各作者的单位、年龄、研究方向、发表论文的主题与关键字、论文发表年限等,根据不同的师生关系类型进行分析才能准确。
注意区别师生合作发表与同学之间合作发表、同事之间合作发表、课题合作者之间合作发表的特征。
展现的问题
注意不同使用者处于不同目的的使用。具体应有几种展现方式。
1.个人方式:展现某个人的师承关系。又有很多子方式:
(1)展示自己及其在完整学派中的位置。中间有自己和自己的师兄弟,甚至是“堂师兄弟”.....;下面有自己的学生,学生的学生、堂学生....;上面有自己的老师、师叔伯、堂师叔伯、师祖、堂师祖.....
(2)展示自己直系的关系。中间有自己;下面有自己的学生,学生的学生;上面有自己的老师、师祖.....
(3)动态展示自己或某人在某一时间段的拜师及收徒过程。
(4)展示一起合作发表的论文
(5)立体展现.....
....
2. 团队方式:属于高级功能,能在师承关系的基础上,进一步挖掘学术流派、学术团体、以及学术团体之间的关系。