为了能够对抓取的中文信息进行检,需要选择分词器对其进行分词,IKAnalyzer是一个不错的选择,小试了一下IKAnalyzer的分词效果,感觉不错,代码如下:
分词之后的结果如下:
苏轼|不是|圣人|他|最可|可贵|的|地方|是|在|痛苦|彷徨|挣扎|中|总能|能把|自己|的|心灵|置于|更广|广阔|的|天地|地中|如同|赤壁|后|赋|中|横飞|而去|的|老|鹤|戛戛|于|星空|夜|月|长河|大江|之上|澄明|明清|清澈|皎|然|不|滓|苏轼|是|一个|一|个|善于|于|苦|中|找乐|的人|这种|乐观|与|真|趣|帮|他|度过|过了|不少|难关|画家|陈|丹青|说|鲁迅|是|一个|一|个|有趣|的人|我|想|拿来|来说|苏东坡|东坡|一样|一|样|也行|
接下来准备了解一下统计一个文本中关键词出现次数的方法,然后简单的利用出现次数对一些文本进行排序。