- 博客(3)
- 资源 (1)
- 收藏
- 关注
原创 sklearn学习决策树算法
python有一个非常棒的机器学习依赖包sklearn,用于实现机器学习的很多算法,本文将介绍用sklearn中的决策树的接口来实现决策树。决策树是一种用于分类的算法,是一种监督学习算法,具体有id3、c4.5和cart三种算法组成。首先通过csv来导入数据集,注意csv格式是按照每一列以逗号为分隔符的形式。但是因为调用sklearn的包时,需要将数据集的表现格式进行转化,也就是通过也就是比如某一...
2018-03-24 08:12:28 2952
原创 从pandas写入csv中文乱码问题的解决
在使用pandas的to_csv来写入csv中,会出现中文乱码问题,可以通过在pandas中读取带有中文的csv文件时,读写中汉字为乱码,可加上encoding参数来避免,如:pd.read_csv("ee.csv",encoding="gb2312")当然,在导出时记得也加上encoding参数,否则导出后用excel打开也是乱码,editplus打开正常,如:df.to_csv("sel.cs...
2018-03-13 21:35:16 19250 1
转载 PCA算法详解
1. PCA原理PCA的思想是将nn维特征映射到kk维空间上k<nk<n,这kk维特征是全新的正交特征,是重新构造出来的kk维特征,而不是简单地从nn维特征中去除其余n−kn−k维特征。那么如何衡量投影向量的优劣呢?在数学上有三种方法衡量投影的优劣!PCA可以被定义为数据在低维线性空间上的正交投影,这个线性空间被称为主⼦空间(principal subspace),使得投影数据的⽅差被...
2018-03-10 16:30:32 9060 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人