一、LDC数据目录
LDC数据目录 https://catalog.ldc.upenn.edu/byyear
根据上面的数据目录查看自己所需的数据是否在平台上可获取。
二、LDC账户注册
Note 0: LDC将数据提供给学校或科研机构使用,每个组织都有一个管理员负责本机构人员在LDC平台的会员申请。
**Note 1:**正常大学如果搞自然语言很多的话,都有订阅这个平台的数据,如果搞得不多的话,就没注册。如果长时间没有审核结果的话,可以如本文第三步所示,发邮件去咨询LDC的会籍协调员。
- 学校、机构邮箱注册
一定要用所在机构(高校或研究所)的邮箱注册,否则管理员不会通过你的申请。 - 注册时选择你所在的组织(高校或研究机构)
千万不可以选错,别的组织管理员不会搭理你的申请。
三、账户审核结果
账户顺利被提权的快乐千篇一律,申请石沉大海的原由却是各有千秋。
- 询问未收到回复的原因
发邮件给membership coordinator,告知你未收到回复的情况,询问你的组织是否有订阅数据以及管理员的联系方式;LDC一般会告知你你的组织管理员的情况。
附赠一个邮件模板:
Title: LDC membership application and check
Hello Coordinator:
I am a graduate student from XXXX University, Shaanxi, China. During my research, I have an idea about XXX Taskn, so I want to use XXX data for experiment. All the results will be used for academic writing. I've send an application on LDC but there is no reply from the administrator. I wonder if my school has subscribed these membership data and whether the administrator could approve my application or not. Would you help me to check that?
My account information is as follows:
# just copy from your account
college:
address: Road, District, City, Province, PR China
nationality:PR China
Account: XXXX@XXX.edu.cn
邮件的撰写思路为表明身份(组织名和角色)、告知你的工作主题和需求、告知数据用途、告知你遇到的情况、询问你所在的组织是否有订阅该平台数据并请协调员做进一步处理。
- 根据coordinator回复联系管理员
修改一下上面的模板,再发给组织的管理员。主要是调整需求,对于LDC的会籍协调员,你的需求是提权或是组织管理员的联系方式;对于组织管理员,你的需求是审核你的身份和提权。
Title: LDC membership application and check
Hello XXX:
I am a graduate student from XXXX University, Shaanxi, China. During my research, I have an idea about XXX Taskn, so I want to use XXX data for experiment. All the results will be used for academic writing.
I've send an application on LDC but there is no reply from the administrator. I got your email-address from Taylor, the membership coordinator of LDC. Would you help me to prompt my access?
My account information is as follows:
# just copy from your account
college:
address: Road, District, City, Province, PR China
nationality:PR China
Account: XXXX@XXX.edu.cn
四、数据获取和处理
- 数据下载
- 数据处理
有数据处理的脚本
五、一些其他情况
高校未订阅LDC数据
如果你所在高校或组织没有订阅该平台的数据,但你实在是需要用到数据且没有钱购买数据,也有解决办法。
- 想办法让你所在的机构加入会员
2400刀/年,这种情况下学校的学生都可以注册账户使用了; - 个人以学生身份付费,基本1000刀一份数据,也有1700刀一份的;
- 个人免费申请
这种办法我没试过,但是方案来自LDC,想必也可以成功?
(1) 申请人需要是在读本科生或研究生、学校没买LDC数据、申请人有很好的计划并且真的穷,支付不起数据费用;
(2) 申请人要提交申请说明自己要哪个数据、做什么研究、成功几率有多大,此外,还要申请人的导师或系主任提供证实。
(3) 一年有两个申请期,春秋各一次。
账户转借和数据拷贝
- 账户转借
借账户是不可以的,被发现后有可能会被封。
浙江大学图书馆订阅了LDC数据、贴出了管理员信息并贴出了注册流程,也提醒了本校学生不要外借账户,否则账户会被封。 - 数据拷贝
由于版权原因,数据不允许拷贝给他人。如果想使用数据的话,要么个人申请免费版,要么学校购买,尊重版权。