因为我本身java出身,所以更偏向于源码看java的。不过java写的又臭又长,参数就一大陀。
python也好不到哪里去,后面都是c++写的组件,不但不可调试,还编译起来费劲。
每个库的实现大家都可能又是有点小差别,所以还是先看一种的好。
结论:使用和看接口用python,具体实现看java的,感兴趣的还是deep learning相关,但可能从。代码量从规模小的看起。
实际使用以成熟的项目为优先,不要是玩具。并且文档要全。
每次项目具体地址就不写了。很容易就在google中搜到。
数据挖掘:
1.研究weka(java,玩具)
五年前看过,不求甚解。
2.研究scikit-learning(py)
代码写的很nice.
3.研究mahout(java,hadoop工具)
hadoop,玩起来可以真实跑东东。
自然语言:
6.研究nltk.(py)
有本书有中文翻译,自已找。
4.研究stanford-corenlp-full.(java,玩具)
感觉很牛B的样子,代码超多超全。
5.研究opennlp.(java,玩具)
继续观望,apache的顶级项目
deep learning:
6.研究DeepLearning-master (各种语言,玩具)
很简单,有意思。
7.研究simsa(工具)
没看过。C++的,有空再说吧。
8.研究word2vec (工具)
代码很小,看别人跑起来,好像很不错的样子。暂时不在火力范围之内。以后肯定会很感兴趣。
还有一个mldemos的项目。
观察参数。可以使用这个。
提醒自已不要太纠缠在细节上了。可以跳过实现。先了解使用吧。