挖掘DBLP作者合作关系，FP-Growth算法实践（2）：从DBLP数据集中提取信息，三种源码（dom，sax，string）

最新推荐文章于 2021-10-18 19:22:58 发布

mmc2015

最新推荐文章于 2021-10-18 19:22:58 发布

阅读量1.9k

点赞数 3

分类专栏：挖掘DBLP作者合作关系，FP-Growth算法实践文章标签：挖掘DBLP作者合作关系 FP-Growth算法实践 DBLP源码 dom sax

本文链接：https://blog.csdn.net/mmc2015/article/details/51002214

版权

本文是FP-Growth算法在DBLP作者合作关系挖掘中的实践，提供了使用DOM、SAX和字符串处理的三种不同源码实现。由于之前的DOM方法速度较慢，作者分享了更高效的SAX和字符串处理方法，供读者参考和使用。

摘要由CSDN通过智能技术生成

上篇文章：http://blog.csdn.net/mmc2015/article/details/50988375 （挖掘DBLP作者合作关系，FP-Growth算法实践（1）：从DBLP数据集中提取目标信息（会议、作者等））

大家反映代码不能用，主要是太慢了，好吧，我也承认慢，在内存构造树，肯定的！

这次给出另外两种。

为了完整，先给出dom：

#do not use this code!
def DomParser():
    domTree=parse(fileName)
    dblp=domTree.documentElement
    inproceedingsList=dblp.getElementsByTagName("inproceedings")
    for inproceedings in inproceedingsList:
        
        year=inproceedings.getElementsByTagName("year")[0]
        yearStr=str(year.childNodes[0].data)
        if yearStr<fromYear:
            continue
        print "yearStr", yearStr, "=="*20
        
        booktitle=inproceedings.getElementsByTagName("booktitle")[0]
        booktitleStr=str(booktitle.childNodes[0].data)
        #for "<booktitle>ICML Unsupervised and Transfer Learning</booktitle>"
        booktitleStr=booktitleStr.split(" ")[0]
        if not confNameDict.has_key(booktitleStr):
            continue
        print "booktitleStr", booktitleStr, "^^"*20
        
        #allList=[] #"confName    \t    year    \t    tit

最低0.47元/天解锁文章

mmc2015

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
3
评论
挖掘DBLP作者合作关系，FP-Growth算法实践（2）：从DBLP数据集中提取信息，三种源码（dom，sax，string）

上篇文章：http://blog.csdn.net/mmc2015/article/details/50988375 （挖掘DBLP作者合作关系，FP-Growth算法实践（1）：从DBLP数据集中提取目标信息（会议、作者等））大家反映代码不能用，主要是太慢了，好吧，我也承认慢，在内存构造树，肯定的！这次给出另外两种。为了完整，先给出dom：#do not use
复制链接

扫一扫

专栏目录