在NLP领域，这所211如战神一样排在大部分985前面！

最新推荐文章于 2024-08-05 14:29:18 发布

zenRRan

最新推荐文章于 2024-08-05 14:29:18 发布

阅读量1.1k

点赞数

文章标签：字符串 python 人工智能 java 机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzI3ODgwODA2MA==&mid=2247506593&idx=1&sn=4f2e64ace0b0125856afbe8421ff9603&chksm=eb53ce32dc244724c47374c3bf9947e9f9567488e52a523cd8a05bd26eb4737b3f87c2764710&scene=126&&sessionid=0

版权

每天给你送来NLP技术干货！

知乎匿名回答

链接：https://www.zhihu.com/question/492917683/answer/2179386807

zenRRan有所整理

看到有人拿我做的国内高校顶会论文统计来说事，我作为原作者就放一个完全版吧。在放统计之前回答一些问题

Q1: 论文以什么标准统计？

A1: 基本按照CS Ranking划分领域指定的会议统计，除此之外，ML加了COLT/JMLR，Data Mining加了CIKM/ICDM。但AAAI/IJCAI/WWW这样的大杂会我就没放

Q2: 为什么不直接用学科评估和CS Rankings的数据？

A2: 学科评估不透明，不知道以什么为标准，而且统计的数据也不会开源。CS Rankings数据也不准，需要自己去上数据。CS Rankings还有一个大bug，不是以学校为单位，而是以人为单位。打个比方，某人P从A学校跳槽到B学校，那么P在A学校发的论文在CS Rankings会被放进B学校。

Q3: 论文如何统计？

A3: 我是直接下载2016年-2020年这五年指定顶会所有论文，然后写python脚步在论文里面找学校邮箱后缀，例如http://tsinghua.edu.cn，所以在论文里面写http://gmail.com，http://hotmail.com等的论文没被统计，误差在10%内？哈工大的CV和苏大的NLP可能有很大出入，因为他们的老师和学生不太喜欢用学校邮箱地址放到论文里...

Q4: 为何匿名？

A4: 我只是好奇想统计个数据，怕惹了某些人，也不想出名，故此匿名，认识我的也不要揭穿我的身份，谢谢。

Q5: 论文是以第一作者统计吗？

A5: 是，除了以字母序排序的理论会议，其他会议我都找的第一作者。方法就是把文本以@符号切割，在返回的列表的第二个字符串里面去匹配邮箱后缀，按字母序排序的理论会议是统计所有作者。没有在论文里面填邮箱的我会手动添加。ICML一般留的是通讯作者的邮箱，那我就找第一个通讯作者的机构。统计所有作者的会议/期刊：COLT/JMLR/STOC/FOCS/SODA

Q6: 重庆大学2021年发的ICML论文是学校在该会议0的突破吗？

A6: 不是，我在用脚本统计的时候发现，重大2020年发的MoNet3D: Towards Accurate Monocular 3D Object Localization in Real Time论文为近六年来的第一篇ICML，是信息物理社会可信服务计算教育部重点实验室发的。

陆续更新中...

机器学习

计算机视觉

自然语言处理

获取代码

import re
import os
import PyPDF2
import pdfplumber


THU = "tsinghua.edu.cn"
PKU = "pku.edu.cn"
FDU = "fudan.edu.cn"
SJTU = "sjtu.edu.cn"
ZJU = "zju.edu.cn"
USTC = "ustc.edu.cn"
NJU = "nju.edu.cn"
RUC = "ruc.edu.cn"
CAS = "ac.cn"
HKUST = "ust.hk"
CUHK = "cuhk.edu.hk"
HKU = "hku.hk"
CityU = "cityu.edu.hk"
PolyU = "polyu.edu.hk"
NTU = "ntu.edu.tw"
NCTU = "nctu.edu.tw"
NTHU = "nthu.edu.tw"
NCKU = "ncku.edu.tw"
BUAA = "buaa.edu.cn"
Tongji = "tongji.edu.cn"
NKU = "nankai.edu.cn"
BNU = "bnu.edu.cn"
BIT = "bit.edu.cn"
XJTU = "xjtu.edu.cn"
WHU = "whu.edu.cn"
HUST = "hust.edu.cn"
HIT = "hit.edu.cn"
SEU = "seu.edu.cn"
NUDT = "nudt.edu.cn"
ECNU = "ecnu.edu.cn"
SYSU = "sysu.edu.cn"
TJU = "tju.edu.cn"
XMU = "xmu.edu.cn"
UESTC = "uestc.edu.cn"
SCUT = "scut.edu.cn"
NWPU = "nwpu.edu.cn"
SCU = "scu.edu.cn"
SDU = "sdu.edu.cn"
CQU = "cqu.edu.cn"
CSU = "csu.edu.cn"
DLUT = "dlut.edu.cn"
HNU = "hnu.edu.cn"
JLU = "jlu.edu.cn"
NEU = "neu.edu.cn"
LZU = "lzu.edu.cn"
SHUFE = "shufe.edu.cn"
BUPT = "bupt.edu.cn"
XDU = "xidian.edu.cn"
NUAA = "nuaa.edu.cn"
SUDA = "suda.edu.cn"
NJUST = "njust.edu.cn"
BJTU = "bjtu.edu.cn"
HFUT = "hfut.edu.cn"
WHUT = "whut.edu.cn"
Sustech = "sustech.edu.cn"
Shanghaitech = "shanghaitech.edu.cn"
SZU = "szu.edu.cn"
HDU = "hdu.edu.cn"
CQUPT = "cqupt.edu.cn"


def pdf2text(path):
    pdfFile = open(path,'rb')
    pdfReader = PyPDF2.PdfFileReader(pdfFile, strict=False)
    text_string = ""
    for k in range(2):
        page = pdfReader.getPage(k)
        text_string += page.extractText()
    pdfFile.close()
    return text_string


'''
def pdf2text(path):
    text_string = ''
    with pdfplumber.open(path) as pdf: 
        for i in range(2):
            page = pdf.pages[i] 
            text_string += '\n'.join(page.extract_text().split('\n')[:-1])
    return text_string
'''


universities = [THU, PKU, FDU, SJTU, ZJU, USTC, NJU, RUC, CAS, HKUST, CUHK, HKU, CityU, PolyU, NTU, NCTU, NTHU, NCKU,
                BUAA, Tongji, NKU,
                BNU, BIT, XJTU, WHU, HUST, HIT, SEU, NUDT, ECNU, SYSU, TJU, XMU, UESTC,
                SCUT, NWPU, SCU, SDU, CQU, CSU, DLUT, HNU, JLU, NEU, LZU,
                SHUFE, BUPT, XDU, NUAA, SUDA, NJUST, BJTU, HFUT, WHUT,
                Sustech, Shanghaitech, SZU, HDU, CQUPT]


university_paper = {}
for k, university in enumerate(universities):
    university_paper[str(university)] = 0


rootdir = r"ICML/2020"
file_list = sorted(os.listdir(rootdir))
manual_list = []


num = 0
for file in file_list:
    if file.lower().endswith(".pdf"):
        file_path = os.path.join(rootdir, file)
        try:
            text_string = pdf2text(file_path)
        except Exception:
            print(file_path)
            manual_list.append(file_path)
            continue
        else:
            num += 1
            print(file_path)
            text_string = text_string.replace(' ', '')
            text_string = text_string.replace('\n', '')
            if len(text_string) < 100:
                print(file_path, "No!")
                manual_list.append(file_path)
                continue
            try:
                text_string = text_string.lower().split('@')[1]
            except Exception:
                manual_list.append(file_path)
                continue
            for k, university in enumerate(universities):
                if re.search(university, text_string.lower()) is not None:
                    print(re.search(university, text_string.lower()))
                    university_paper[str(university)] += 1
                    break


print(num)
print(manual_list)


for k, university in enumerate(universities):
    print(university, university_paper[str(university)])


for file in manual_list:
    os.system("open %s" %(file))

manual_list是需要自己手动添加的，想统计其他会议论文的你们可以下载，然后传到百度云，我去下载再统计

PS：此统计供各位选校选方向或者找教职用

投稿或交流学习，备注：昵称-学校（公司）-方向，进入DL&NLP交流群。

方向有很多：机器学习、深度学习，python，情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。