面向程序员的数据挖掘指南:https://legacy.gitbook.com/book/yourtion/dataminingguide/discussions
数据挖掘十大算法讲解:https://wizardforcel.gitbooks.io/dm-algo-top10/content/svm.html
算法总结:https://blog.csdn.net/liyingkun1237/article/details/44101837
光年关键词提取工具:提取出这些网页或文章内容中出现的关键词词性,权重和词频,整合整个网站内容。
rapidminer :是世界领先的数据挖掘解决方案
文本挖掘的工具:IBM DB2 intelligent Miner、SAS Text Miner、SPSS Text Mining
Python:(P:parameter参数M:method方法C:variable变量V:class类F:function函数)
- Numpy:N维数组,矢量运算,高效的Index 不需要循环
- Acipy:依赖于Numpy,提供线性代数:傅里叶变换:图像处理算法
- Pandas:依赖于Numpy,提供多种高级数据结构,强大索引
- Matplotlib:python2D绘图,Mplot3D绘制精美3D图
数据挖掘软件工具:
[Xgboost](https://github.com/dmlc/xgboost)
[mxnet](https://github.com/dmlc/mxnet)
[tenserflow](https://github.com/tensorflow/tensorflow)
[WEKA](http://www.cs.waikato.ac.nz/ml/weka/)
[Apache Mahout](https://mahout.apache.org/)
[Spark MLlib](http://spark.apache.org/docs/latest/mllib-guide.html)