数据管理
输入 — 文件输入、HIVE表输入、kafka输入、关系数据库输入等
输出 — 文件输出、HIVE表输出、kafka输出、关系数据库输出等
数据处理
行 — 数据过滤、随机抽样、数据不平衡处理
列 — 设置角色、重命名、属性过滤、缺失值删除、随机数/ID生成、缺失值填充、属性类型变换
高级 — 数据标准化、分类汇总、RFM、异常值检测
数据融合
数据连接、数据追加、数据拆分
特征工程
数据交叉、属性生成、特征编码、主成分分析、因子分析、分箱、变量选择、高级特征交叉、WOE编码、数据分组
机器学习
回归 — 线性回归、决策树回归、SVM回归、梯度提升数回归、曲线回归、随机森林回归
分类 — 逻辑回归、朴素贝叶斯、Xgboost分类、贝叶斯网络分类、随机森林分类、SVM分类、CART、ID3分类、C45+决策树分类、梯度提升决策树分类、KNN
聚类 — KMeans、模糊C均值、EM聚类、Hierarchy
关联分析 — FPGrowth
时间序列 — ARIMA、指数平滑、移动平均、向量自回归、回声状态网络、灰色预测
综合评价 — TOPSIS
推荐 — 协同过滤
统计分析
方差分析、相关系数、相似度、假设检验、描述数据特征
深度学习
DNN回归、DNN分类、RNN回归、RNN分类、LSTM时序
集成学习
bagging回归、voting回归、voting分类、bagging分类
自动学习
自动聚类、自动回归、自动时序、自动分类、自动择参、自动建模
文本分析
分词、信息抽取、文本过滤、向量空间、关键词提取、主旨话题分析、命名实体识别、文本相似度、观点情感分析、垃圾违禁信息检测、文本摘要、词频统计
模型管理
评估 — 回归评估、分类评估、聚类评估、时间序列评估、分类交叉验证、回归交叉验证