代码如下:
>>> import jieba
>>> import jieba.analyse
>>>import io
>>> a=io.open('D:/1.txt','r',encoding='utf-8').read()
>>> b=[x for x in jieba.cut(a) if len(x) >= 2]
>>> c=Counter(b).most_common(50)
>>> print(c)
[(u'\u4e00\u4e2a', 28255), (u'\u559c\u6b22', 26307), (u'\u5927\u54ed', 24180), (u'\u9996\u6b4c', 23797), (u'\u81ea\u5df1', 18642), (u'\u6ca1\u6709', 16400), (u'\u65f6\u5019', 16173), (u'\u6211\u4eec', 15616), (u'\u5c31\u662f', 15371), (u'\u97f3\u4e50', 13195), (u'\u77e5\u9053', 13063), (u'\u8fd9\u4e2a', 12713), (u'\u89c9\u5f97', 12428), (u'\u611f\u89c9', 12257), (u'\u73b0\u5728', 11989), (u'\u4ec0
\u4e48', 11559), (u'\u4e0d\u662f', 11253), (u'\u771f\u7684', 10818), (u'\u8fd8\u662f', 10788), (u'\u6d41\u6cea', 8936), (u'\u53ef\u4ee5', 8911), (u'\u56e0\u4e3a', 8850), (u'\u8bc4\u8bba', 8693), (u'\u8fd9\u4e48', 8517), (u'\u542c\u5230', 8473), (u'\u7f51\u6613', 8309), (u'\u7231\u5fc3', 8044), (u'\u597d\u542c', 7871), (u'\u4f60\u4eec', 7729), (u'\u58f0\u97f3', 7490), (u'\u4e00\u76f4', 7443), (u'\u770b\u5230', 7289), (u'\u8fd9\u9996', 7253), (u'\u90a3\u4e2a', 6968), (u'\u4e00\u8d77', 6706), (u'\u6b4c\u8bcd', 6644), (u'\u8fd9\u6837', 6620), (u'\u5e0c\u671b', 6601), (u'\u4e00\u6837', 6581), (u'\u4ed6\u4eec', 6477), (u'\u4f46\u662f', 6477), (u'\u5df2\u7ecf', 6420), (u'\u90a3\u4e48', 6207), (u'\u6700\u540e', 6066), (u'\u7136\u540e', 5871), (u'\u53ef\u7231', 5807), (u'\u5982\u679c', 5751), (u'\u4e0d\u8981', 5744), (u'\u4eb2\u4eb2', 5624), (u'\u600e\u4e48', 5546)]
>>>