打算绘制中文词云图?那你得先学会如何做中文文本分词。跟着我们的教程,一步步用Python来动手实践吧。
例如:
Yes Minister is a satirical British sitcom written by Sir Antony Jay and Jonathan Lynn that was first transmitted by BBC Television between 1980 and 1984, split over three seven-episode series.
但是,中文的文本就没有这种空格区隔了。为了做词云,我们首先需要知道中文文本里面都有哪些“词”。
你可能觉得这根本不是问题——我一眼就能看出词和词之间的边界!
对,你当然可以。你可以人工处理1句、100句,甚至是10000句话。但是如果给你100万句话呢?
这就是人工处理和电脑自动化处理的最显著区别——规模。
别那么急着放弃啊,你可以用电脑来帮忙。
你的问题应该是:如何用电脑把中文文本正确拆分为一个个的单词呢?
这种工作,专业术语叫做分词。
在介绍分词工具及其安装之前,请确认你已经阅读过《如何用Python做词云》一文,并且按照其中的步骤做了相关的准备工作,然后再继续依照本文的介绍一步步实践。
分词
中文分词的工具有很多种。有的免费,有的收费。有的在你的笔记本电脑里就能安装使用,有的却需要联网做云计算。
今天给大家介绍的,是如何利用Python,在你的笔记本电脑上ÿ