雷锋网按:本文作者王树义,原载于微信公众号玉树芝兰(nkwangshuyi),雷锋网经授权发布。
打算绘制中文词云图?那你得先学会如何做中文文本分词。跟着我们的教程,一步步用 Python 来动手实践吧。
需求
在此前发布的文章《从零开始教你用 Python 做词云》一文中,我们介绍了英文文本的词云制作方法。大家玩儿得可还高兴?
文中提过,选择英文文本作为示例,是因为处理起来最简单。但是很快就有读者尝试用中文文本做词云了。按照前文的方法,你成功了吗?
估计是不成功的。因为这里面缺了一个重要的步骤。
观察你的英文文本。你会发现英文单词之间采用空格作为强制分隔符。
例如:Yes Minister is a satirical British sitcom written by Sir Antony Jay and Jonathan Lynn that was first transmitted by BBC Television between 1980 and 1984, split over three seven-episode series.
但是,中文的文本就没有这种空格区隔了。为了做词云,我们首先需要知道中文文本里面都有哪些“词”。
你可能觉得这根本不是问题——我一眼就能看出词和词之间的边界!
对,你当然可以。你可以人工处理1句、100句,甚至是10000句话。但是如果给你100万句话呢?
这就是人工处理和电脑自动化处理的最显著区别——规模。
别那么急着放弃啊,你可以用电脑来帮忙。
你的问题应该是:如何用电脑把中文文本正确拆分为一个个的单词呢?
这种工作,专业术语叫做分词。
在介绍分词工具及其安装之前,请确认你已经阅读过《从零开始教你用 Python 做词云》一文,并且按照其中的步骤做了相关的准备工作,然后再继续依照本文的介绍一步步实践。
分词
中文分词的工具有很多种。有的免费&