问题1:Jieba分词的原理是什么
1.首先用正则表达式将中文段落粗略的分成一个个句子。
2.将每个句子构造成有向无环图,之后寻找最佳切分方案。
3.最后对于连续的单字,采用HMM模型将其再次划分。
限时1元秒杀>>机器学习工程师特训 第7期【双12限时秒杀,12月14日恢复原价】 - 七月在线 12月16日开营!
问题2:特征工程的常用方法
1.对时间戳处理
2.对离散型变量进行独热编码
3.对连续型变量进行分箱/分区
4.特征缩放
5.特征选择
6.特征衍生(特征交叉)
问题3:随机森林和GBDT区别
随机森林采用的bagging思想,而GBDT采用的boosting思想。
这两种方法都是Bootstrap思想的应用,Bootstrap是一种有放回的抽样方法思想。
虽然都