python在生物中的应用_决策树原理、Scikit-learn实现及其在生物信息中的应用

最新推荐文章于 2024-02-16 22:00:33 发布

weixin_39523835

最新推荐文章于 2024-02-16 22:00:33 发布

阅读量214

点赞数

文章标签： python在生物中的应用

之前转过一篇文章：2016年GitHub排名前20的Python机器学习开源项目(转)，说明现在已经有了很多很好的机器学习的包，我们不必从底层开始实现，只要懂点算法、会看文档，一般人也能玩好机器学习。

随着生信领域的数据量越来越多，我们得到知识的途径必然会发生变化，慢慢地我们将不再使用固定呆板的模型，而是使用灵活的机器学习方法从海量数据中提取出知识。

现在我准备开一系列的机器学习算法原理及python包的实例的文章，开始全面的熟悉python和机器学习。

看完上面几个教程基本就能搞懂决策树了。

首先需要一些信息论的基础：

信息增益：ID3，g(D,A) = H(D)-H(D|A)，表示了特征A使得数据集D的分类不确定性减少的程度。

信息增益比：C4.5，g‘(D,A)=g(D,A) / H(D)，消除了H(D)的影响

基尼指数：CART，（经济学中也有个基尼指数反应社会的贫富差距，链接）

ID3算法就是对各个feature信息计算信息增益，然后选择信息增益最大的feature作为决策点将数据分成两部分。

C4.5与ID3相比其实就是用信息增益比代替信息增益，因为信息增益有一个缺点：信息增益选择属性时偏向选择取值多的属性。

CART(classification and regression tree)的算法整体过程和上面的差异不大，然是CART的决策是二叉树的每一个决策只能是“是”和“否”，换句话说，即使一个feature有多个可能取值，也只选择其中一个而把数据分类两部分而不是多个，它用到的是基尼指数。

注意：Scikit-learn在Linux上很好安装，直接使用pip就可以，而在Windows上很麻烦，乱七八糟的错误。

待续~

weixin_39523835

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python在生物中的应用_决策树原理、Scikit-learn实现及其在生物信息中的应用

之前转过一篇文章：2016年GitHub排名前20的Python机器学习开源项目(转)，说明现在已经有了很多很好的机器学习的包，我们不必从底层开始实现，只要懂点算法、会看文档，一般人也能玩好机器学习。随着生信领域的数据量越来越多，我们得到知识的途径必然会发生变化，慢慢地我们将不再使用固定呆板的模型，而是使用灵活的机器学习方法从海量数据中提取出知识。现在我准备开一系列的机器学习算法原理及python...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。