在NLP领域,这所211如战神一样排在大部分985前面!

每天给你送来NLP技术干货!


知乎匿名回答

链接:https://www.zhihu.com/question/492917683/answer/2179386807

zenRRan有所整理

看到有人拿我做的国内高校顶会论文统计来说事,我作为原作者就放一个完全版吧。在放统计之前回答一些问题

 Q1: 论文以什么标准统计?

A1: 基本按照CS Ranking划分领域指定的会议统计,除此之外,ML加了COLT/JMLR,Data Mining加了CIKM/ICDM。但AAAI/IJCAI/WWW这样的大杂会我就没放

 Q2: 为什么不直接用学科评估和CS Rankings的数据?

A2: 学科评估不透明,不知道以什么为标准,而且统计的数据也不会开源。CS Rankings数据也不准,需要自己去上数据。CS Rankings还有一个大bug,不是以学校为单位,而是以人为单位。打个比方,某人P从A学校跳槽到B学校,那么P在A学校发的论文在CS Rankings会被放进B学校。

 Q3: 论文如何统计?

A3: 我是直接下载2016年-2020年这五年指定顶会所有论文,然后写python脚步在论文里面找学校邮箱后缀,例如http://tsinghua.edu.cn,所以在论文里面写http://gmail.com,http://hotmail.com等的论文没被统计,误差在10%内?哈工大的CV和苏大的NLP可能有很大出入,因为他们的老师和学生不太喜欢用学校邮箱地址放到论文里...

 Q4: 为何匿名?

A4: 我只是好奇想统计个数据,怕惹了某些人,也不想出名,故此匿名,认识我的也不要揭穿我的身份,谢谢。

Q5: 论文是以第一作者统计吗?

A5: 是,除了以字母序排序的理论会议,其他会议我都找的第一作者。方法就是把文本以@符号切割,在返回的列表的第二个字符串里面去匹配邮箱后缀,按字母序排序的理论会议是统计所有作者。没有在论文里面填邮箱的我会手动添加。ICML一般留的是通讯作者的邮箱,那我就找第一个通讯作者的机构。统计所有作者的会议/期刊:COLT/JMLR/STOC/FOCS/SODA

 Q6: 重庆大学2021年发的ICML论文是学校在该会议0的突破吗?

A6: 不是,我在用脚本统计的时候发现,重大2020年发的MoNet3D: Towards Accurate Monocular 3D Object Localization in Real Time论文为近六年来的第一篇ICML,是信息物理社会可信服务计算教育部重点实验室发的。

陆续更新中...

机器学习

8320166d76f806132d1cd77530d194bd.png

计算机视觉

30263c39243471217ad04bccf7f504cf.png

自然语言处理

e35a91a9ffdf8447fc182d299b32404a.png

 获取代码

import re
import os
import PyPDF2
import pdfplumber


THU = "tsinghua.edu.cn"
PKU = "pku.edu.cn"
FDU = "fudan.edu.cn"
SJTU = "sjtu.edu.cn"
ZJU = "zju.edu.cn"
USTC = "ustc.edu.cn"
NJU = "nju.edu.cn"
RUC = "ruc.edu.cn"
CAS = "ac.cn"
HKUST = "ust.hk"
CUHK = "cuhk.edu.hk"
HKU = "hku.hk"
CityU = "cityu.edu.hk"
PolyU = "polyu.edu.hk"
NTU = "ntu.edu.tw"
NCTU = "nctu.edu.tw"
NTHU = "nthu.edu.tw"
NCKU = "ncku.edu.tw"
BUAA = "buaa.edu.cn"
Tongji = "tongji.edu.cn"
NKU = "nankai.edu.cn"
BNU = "bnu.edu.cn"
BIT = "bit.edu.cn"
XJTU = "xjtu.edu.cn"
WHU = "whu.edu.cn"
HUST = "hust.edu.cn"
HIT = "hit.edu.cn"
SEU = "seu.edu.cn"
NUDT = "nudt.edu.cn"
ECNU = "ecnu.edu.cn"
SYSU = "sysu.edu.cn"
TJU = "tju.edu.cn"
XMU = "xmu.edu.cn"
UESTC = "uestc.edu.cn"
SCUT = "scut.edu.cn"
NWPU = "nwpu.edu.cn"
SCU = "scu.edu.cn"
SDU = "sdu.edu.cn"
CQU = "cqu.edu.cn"
CSU = "csu.edu.cn"
DLUT = "dlut.edu.cn"
HNU = "hnu.edu.cn"
JLU = "jlu.edu.cn"
NEU = "neu.edu.cn"
LZU = "lzu.edu.cn"
SHUFE = "shufe.edu.cn"
BUPT = "bupt.edu.cn"
XDU = "xidian.edu.cn"
NUAA = "nuaa.edu.cn"
SUDA = "suda.edu.cn"
NJUST = "njust.edu.cn"
BJTU = "bjtu.edu.cn"
HFUT = "hfut.edu.cn"
WHUT = "whut.edu.cn"
Sustech = "sustech.edu.cn"
Shanghaitech = "shanghaitech.edu.cn"
SZU = "szu.edu.cn"
HDU = "hdu.edu.cn"
CQUPT = "cqupt.edu.cn"


def pdf2text(path):
    pdfFile = open(path,'rb')
    pdfReader = PyPDF2.PdfFileReader(pdfFile, strict=False)
    text_string = ""
    for k in range(2):
        page = pdfReader.getPage(k)
        text_string += page.extractText()
    pdfFile.close()
    return text_string


'''
def pdf2text(path):
    text_string = ''
    with pdfplumber.open(path) as pdf: 
        for i in range(2):
            page = pdf.pages[i] 
            text_string += '\n'.join(page.extract_text().split('\n')[:-1])
    return text_string
'''


universities = [THU, PKU, FDU, SJTU, ZJU, USTC, NJU, RUC, CAS, HKUST, CUHK, HKU, CityU, PolyU, NTU, NCTU, NTHU, NCKU,
                BUAA, Tongji, NKU,
                BNU, BIT, XJTU, WHU, HUST, HIT, SEU, NUDT, ECNU, SYSU, TJU, XMU, UESTC,
                SCUT, NWPU, SCU, SDU, CQU, CSU, DLUT, HNU, JLU, NEU, LZU,
                SHUFE, BUPT, XDU, NUAA, SUDA, NJUST, BJTU, HFUT, WHUT,
                Sustech, Shanghaitech, SZU, HDU, CQUPT]


university_paper = {}
for k, university in enumerate(universities):
    university_paper[str(university)] = 0


rootdir = r"ICML/2020"
file_list = sorted(os.listdir(rootdir))
manual_list = []


num = 0
for file in file_list:
    if file.lower().endswith(".pdf"):
        file_path = os.path.join(rootdir, file)
        try:
            text_string = pdf2text(file_path)
        except Exception:
            print(file_path)
            manual_list.append(file_path)
            continue
        else:
            num += 1
            print(file_path)
            text_string = text_string.replace(' ', '')
            text_string = text_string.replace('\n', '')
            if len(text_string) < 100:
                print(file_path, "No!")
                manual_list.append(file_path)
                continue
            try:
                text_string = text_string.lower().split('@')[1]
            except Exception:
                manual_list.append(file_path)
                continue
            for k, university in enumerate(universities):
                if re.search(university, text_string.lower()) is not None:
                    print(re.search(university, text_string.lower()))
                    university_paper[str(university)] += 1
                    break


print(num)
print(manual_list)


for k, university in enumerate(universities):
    print(university, university_paper[str(university)])


for file in manual_list:
    os.system("open %s" %(file))

manual_list是需要自己手动添加的,想统计其他会议论文的你们可以下载,然后传到百度云,我去下载再统计

PS:此统计供各位选校选方向或者找教职用


投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

61b621bd039c3ba0bf957ab3420d8c69.png

记得备注呦

整理不易,还望给个在看!
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值