目前自己总结了以下方式:
1,将文本读出为一个字符串,使用indexof 和 substring 进行递归的搜索切割计算每次找到同一单词的次数,注意排重,每次查找新的单词时候,需要判断这个单词是否已经计算过出现的次数。
2,将文本的单词切割并维护到一个MAP中,已单词为KEY 对应的VALUE为这个单词出现的次数,然后启用多线程,结合方法1 进行 查找计算。
3.如果文本很大,达到了大数据的量级,可以使用hadoop+hafs等大数据处理框架 编写map+reduce程序进行处理,具体实现网上很多。
以上只是可实现的思路,具体实现可根据以上思路作为引子。