挖掘DBLP作者合作关系,FP-Growth算法实践(2):从DBLP数据集中提取信息,三种源码(dom,sax,string)

本文是FP-Growth算法在DBLP作者合作关系挖掘中的实践,提供了使用DOM、SAX和字符串处理的三种不同源码实现。由于之前的DOM方法速度较慢,作者分享了更高效的SAX和字符串处理方法,供读者参考和使用。
摘要由CSDN通过智能技术生成


上篇文章:http://blog.csdn.net/mmc2015/article/details/50988375 (挖掘DBLP作者合作关系,FP-Growth算法实践(1):从DBLP数据集中提取目标信息(会议、作者等)

大家反映代码不能用,主要是太慢了,好吧,我也承认慢,在内存构造树,肯定的!

这次给出另外两种。



为了完整,先给出dom:

#do not use this code!
def DomParser():
    domTree=parse(fileName)
    dblp=domTree.documentElement
    inproceedingsList=dblp.getElementsByTagName("inproceedings")
    for inproceedings in inproceedingsList:
        
        year=inproceedings.getElementsByTagName("year")[0]
        yearStr=str(year.childNodes[0].data)
        if yearStr<fromYear:
            continue
        print "yearStr", yearStr, "=="*20
        
        booktitle=inproceedings.getElementsByTagName("booktitle")[0]
        booktitleStr=str(booktitle.childNodes[0].data)
        #for "<booktitle>ICML Unsupervised and Transfer Learning</booktitle>"
        booktitleStr=booktitleStr.split(" ")[0]
        if not confNameDict.has_key(booktitleStr):
            continue
        print "booktitleStr", booktitleStr, "^^"*20
        
        #allList=[] #"confName    \t    year    \t    tit
  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值