中文分词
调用jieba的cut对中文字符串进行分词即可,返回一个生成器
In [1]: import jieba
In [2]: strings='直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或
...: 频率,宽度则表示各组的组距,其高度与宽度均有意义'
In [3]: data=jieba.cut(strings)
In [4]: type(data)
Out[4]: generator
In [5]: list(data)
Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 1.077 seconds.
Prefix dict has been built succesfully.
Out[5]:
['直方图',
'是',
'用',
'面积',
'表示',
'各组',
'频数',
'的',
'多少',
',',
'矩形',
'的',
'高度',
'表示',
'每',
'一组',
'的',
'频数',
'或',
'频率',
',',
'宽度',
'则',
'表示',
'各组',
'的',
'组距',
',',
'其',
'高度',
'与',
'宽度',
'均',
'有',
'意义']
In [6]: