机器学习
文章平均质量分 96
机器
NICEDAYSS
do one more thing
公众号:N个程序猿的日常 欢迎关注
展开
-
机器学习系列(五)特征工程前的数据探索--培养数据敏感的方法论
写在前面: 我是「nicedays」,一枚喜爱做特效,听音乐,分享技术的大数据开发猿。这名字是来自world order乐队的一首HAVE A NICE DAY。如今,走到现在很多坎坷和不顺,如今终于明白nice day是需要自己赋予的。白驹过隙,时光荏苒,珍惜当下~~写博客一方面是对自己学习的一点点总结及记录,另一方面则是希望能够帮助更多对大数据感兴趣的朋友。如果你也对 大数据与机器学习感兴趣,可以关注我的动态 https://blog.csdn.net/qq_35050438,让我们一起挖掘数据与.原创 2020-09-28 00:12:08 · 936 阅读 · 0 评论 -
机器学习系列(四)学习器模型方法论:模型评估与选择---公平,准确,全面,我们能面面俱到吗??
写在前面: 我是「nicedays」,一枚喜爱做特效,听音乐,分享技术的大数据开发猿。这名字是来自world order乐队的一首HAVE A NICE DAY。如今,走到现在很多坎坷和不顺,如今终于明白nice day是需要自己赋予的。白驹过隙,时光荏苒,珍惜当下~~写博客一方面是对自己学习的一点点总结及记录,另一方面则是希望能够帮助更多对大数据感兴趣的朋友。如果你也对 大数据与机器学习感兴趣,可以关注我的动态 https://blog.csdn.net/qq_35050438,让我们一起挖掘数据与.原创 2020-08-30 21:48:45 · 1208 阅读 · 0 评论 -
机器学习系列(三)决策树的集成算法--随机森林与极限森林--三个臭皮匠与完美主义者的较量
写在前面: 我是「nicedays」,一枚喜爱做特效,听音乐,分享技术的大数据开发猿。这名字是来自world order乐队的一首HAVE A NICE DAY。如今,走到现在很多坎坷和不顺,如今终于明白nice day是需要自己赋予的。白驹过隙,时光荏苒,珍惜当下~~写博客一方面是对自己学习的一点点总结及记录,另一方面则是希望能够帮助更多对大数据感兴趣的朋友。如果你也对 大数据与机器学习感兴趣,可以关注我的动态 https://blog.csdn.net/qq_35050438,让我们一起挖掘数据与.原创 2020-08-30 01:24:20 · 2111 阅读 · 1 评论 -
机器学习系列(二)ML经典十大算法之一:决策树算法--从代码和统计学角度谈谈cs是如何预测你的行为
ML经典十大算法之一:决策树算法:既可以做分类也可以做回归,是一种不断通过判断你的个人特征来完成预测你对某件事做某种操作的概率的ML算法。一:如何构建树:把你的特征做为树节点,而把你对特征的不同情况而做出的不同反应作为分支路径。1):树的起源:根节点如何选择?根节点应该选择更好能切分数据得特征衡量标准:信息熵与信息增益信息量在数学上:当一件事是不太可能发生的时候,我们获取的信息量较大当一件事是极有可能发生的时候,我们获取的信息量较小例如:1.特朗普其实是中国的卧底原创 2020-08-29 18:42:40 · 916 阅读 · 2 评论 -
手撸决策树代码——原理详解(3)+对汽车评价数据集的预测分析(python3)
第六步: 绘制决策树的图像我们通过得到决策树的深度和叶子结点的作用是:1.完成对于图像整体比例的把握,叶子结点有n个,就把横坐标分成n份进行绘制结点的宽度,2.同理深度有n层将纵坐标分成n份,完成结点的高度绘制。3.并以此为基础,通过计算公式得到根结点和叶子结点的位置,还有父子结点之间的特征文本的位置。4.并调用上几步函数完成结点绘制# 所以结点的绘制过程是根左右深度遍历到最左边的叶...原创 2019-12-12 14:07:00 · 3875 阅读 · 1 评论 -
手撸决策树代码——原理详解(2)(python3)
第四步:递归创建字典树构建决策字典树用到的最基本的思想是递归在构建过程中:我们需要用到第一步和第三步的函数,通过第三步得到的最好的划分方式不断的作为当前树的根标签,并将第一步划分的子数据集作为下层使用,不断递归这个递归有两个结束条件,写在了代码注释下def createTree(dataSet, labels): classList = [example[-1] for examp...原创 2019-12-11 19:49:20 · 654 阅读 · 0 评论 -
手撸决策树代码——原理详解(1)(python3)
前提了解信息熵简单提一下,学过物理化学的小伙伴都明白:熵是无序分子运动紊乱程度的一种度量,熵值越大,内部的混乱程度越大。因此,信息熵是对某个事件里面所包含的信息的混乱程度在数学上:当一件事是不太可能发生的时候,我们获取的信息量较大当一件事是极有可能发生的时候,我们获取的信息量较小例如:1.特朗普其实是中国的卧底2.特朗普是zz。结论:信息的量度应该依赖于概率分布,所以说熵...原创 2019-12-11 17:47:49 · 1430 阅读 · 0 评论 -
KNN算法详解--(预测约会网站)一点自己的小见解
大体来讲讲KNN算法整个预测的流程第一步我们需要将我们获取大量的数据集文本进行处理,把一大堆杂乱的数据分出哪些是数据,哪些是标签,并把一些不需要无用的符号去除,形成数据矩阵和标签矩阵# 解析文本def file2matrix(filename): # 将文本记录转换为Numpy的解析程序 fr = open(filename) arrayOLines = fr.read...原创 2019-11-15 16:28:32 · 876 阅读 · 0 评论 -
假设检验的完整解释和置信区间完整解释并讨论其联系
现实生活中,人们往往很难知道样本总体的均值,比如我知道该网络上网的10000个人平均年龄是20岁,但不能了解该网络人群上网年龄总体均值究竟为多少,可能是30岁可能是25岁,所以往往有个笑话,样本总体均值是上帝才能知道的。但是我们可以通过统计学来估计它。写在前面假设检验:是当样本总体均值μ已知时,我通过统计量的分布来检验该假设是否正确,置信区间:是当样本总体均值μ未知时,我通过统计量去估计未...原创 2019-11-13 11:50:27 · 4468 阅读 · 0 评论 -
正态总体样本下的4大分布
一.引入:统计量:对数据进行分析检验的变量(通俗点说就是一种评判方式和标准)例如:方差,标准差,样本原点矩和中心距,以及最简单的均值。正态总体下的四大分布u统计量~标准正态分布t统计量~t分布卡方统计量~卡方分布F统计量~F分布上述图片介绍了4大分布知识前提:学过概率统计和数理初步的人适用。...原创 2019-11-09 16:27:49 · 3230 阅读 · 0 评论