机器学习
文章平均质量分 50
等风来ing
行路难,行路难。多歧路,今安在
展开
-
机器学习实战之决策树算法pandas实现
本来早就写完了,但出了两个小错误,我又不会debug,只能一点点代码试哪里错了,真的烦死了,旁边还有蚊子叫,烦上加烦,好在最后找到错误原因了。import numpy as npfrom pandas import DataFrame, Seriesdef cal_shannon(frame): val_count = frame.iloc[:, -1].value_counts()原创 2017-07-15 02:06:53 · 2092 阅读 · 3 评论 -
机器学习实战之KMeans算法pandas实现
这次写的恶心死我了,第一次随机选中心点的代码有问题还是怎么的,导致第一轮过完,可能会出现某个中心点根本就完全不合适,没有任何一个点会标记为这个中心点,然后报错。导致我的这个代码时灵时不灵,开始完全想不到bug的原因。 而且虽然用pandas来自己实现确实能帮忙巩固pandas的知识,但我还是觉得以前是走入了误区。机器学习重要的部分应该是对理论的理解和轮子的使用,至于书中的代码,理解下理论实现的具体原创 2017-08-31 10:40:29 · 3223 阅读 · 1 评论 -
机器学习实战之knn算法pandas实现
开始学习机器学习实战这本书,打算看完了再回头看 周志华的 机器学习。机器学习实战的代码都是用numpy写的,有些麻烦,所以考虑用pandas来实现代码,也能回顾之前学的 用python进行数据分析。感觉目前章节的测试方法太渣,留着以后学了更多再回头写。# coding: gbkimport pandas as pdimport numpy as npdef getdata(pat原创 2017-07-07 11:14:58 · 2494 阅读 · 0 评论 -
机器学习 决策树初探Titanic
尝试用了sklearn的决策树,发现一些问题。决策树算法的一个很大的优势就是可以很轻松的处理离散的分类变量,但CART仅支持数值变量。我看周老师的决策树这章讲的是通过为实例增加权重的方式处理缺失值,sklearn的分类树数据中不能存在缺失值。所以,为了简单的使用sklearn的决策树,我只能手动给缺失值补值。对有序分类变量,采取直接数值化的方式处理;对无序的,用了binary coding方法...原创 2018-08-01 19:27:02 · 306 阅读 · 0 评论 -
Python决策树实现 适用分类变量、连续变量、缺失值
按照周老师书上讲的用权重处理缺失值,发现问题很多。每当决策树选择包含缺失值的属性作为分割条件时,该属性包含缺失值的实例将被同时分配到每个子节点,这无疑将增加运算量。同时,各项退出条件的设置也不能再依据实例个数而应该是权重。总的来说,按照书上写的实现一遍,很多以前不懂的都一下子明白了。对sk learn中的决策树也有了更好的理解CART算法对分类变量也是用的二叉树,这样不仅能提升运算速度,感觉这...原创 2018-08-21 11:49:51 · 7700 阅读 · 1 评论