笑话是语言型幽默的一种主要形式,根据Raskin提出的幽默语义脚本理论,笑话一般由主体句(setup)与笑点句(punchline)两部分构成。其中,主体句是笑话的基础,蕴含读者的结果预期;笑点句是笑话中使人发笑的句子或词语,一般是笑话结尾。
例如:我其实是个天使,之所以留在人间,是因为体重的关系。其中"我其实是个天使,之所以留在人间,"是主体句,"是因为体重的关系。"是笑点句。
根据该理论基础,构建了一个低资源的笑话数据,该笑话数据的setup和punchline均由人工划分,质量较高,总共有2152条数据。但因为不同人、不同文化背景差异等,仍存在"包袱" (幽默点)理解不一致的情况。以下是该数据集的一些样例:
{"setup": "甲:昨天,我的未婚妻当着众人的面表扬了我。乙:她表扬你什么?甲:", "punchline": "她说我很会解决问题,袜子脏了不洗,翻过来又穿了一个星期。"}
{"setup": "去理发,我说给我吹个半干,果然,", "punchline": "左边还在滴水,右边干了。"}
{"setup": "为什么深海鱼都很丑?", "punchline": "因为太黑谁也看不见谁,大家就随便长长咯。 "}
{"setup": "小明狠狠的说道:对方辩友,你倒是说话啊,无言以对了吧。主持人:", "punchline": "把手松开!你想憋死他呀"}
{"setup": "师傅,为什么咱早上要敲钟啊?", "punchline": "因为我们没养鸡。"}
{"setup": "你真是懒得可以", "punchline": "才不是呢,我一整天都忙着把氧气转换成二氧化碳"}
{"setup": "可以做朋友吗?是一段故事的开始;", "punchline": "还可以做朋友吗?是一段故事的结束。"}
其中每行代表一个笑话,setup是主体句,punchline是笑点句。