蛇口保洁阿姨-CSDN博客

原创 tf.metrics.accuracy()与tf.reduce_mean(tf.cast(tf.argmax(z, 1), tf.argmax(y, 1)), tf.float32)

今天发现在两个计算精确率准确率的玩意儿对不上，满脑子懵了……感谢这位博主写的文章：tf.metrics.accuracy计算的是正确率吗所以说【tf.reduce_mean(tf.cast(tf.argmax(z, 1), tf.argmax(y, 1)), tf.float32)】计算的是本batch正确率：correct_prediction = tf.equal(tf.argmax(...

2019-04-04 17:00:20 699

原创 Tensorflow API Cross Entropy and Softmax

关于tf.nn.softmax_cross_entropy_with_logits()/tf.losses.softmax_cross_entropy()/tf.losses.softmax_cross_entropy()区别和联系：logit_list = np.array([[1, 2, 3], [5, 6, 4], ...

2019-04-04 16:26:40 163

原创 ML in Action - Linear Regression

之前的几章都是监督学习中的分类方法，分类的目标变量是标称型数据，现在开始学习回归方法，对连续型数据作出预测。Linear Regression：优点：计算不复杂缺点：对非线性的数据拟合不好适用于数值型和标称型数据回归的目的是预测数值型的目标值。参考链接：从零开始学Python【24】--岭回归及LASSO回归（理论部分机器学习总结(一)：线性回归、岭回归、La...

2019-02-17 17:01:25 205

原创 ML in Action - AdaBoost

根据书上所说，AdaBoost是最流行的元算法。元算法是对其他算法进行组合的一种方式。在这本书中，我们在前面学到了5种分类算法，现在让我们把不同分类器组合起来，这种组合结果称为集成方法（ensemble method—）或者元算法（meta-algorithm）。使用集成方法时有很多种形式，可以是不同算法的集成，也可以是同一算法在不同设置下的集成。，还可以是数据集的不同部分分配给不同分类器之后...

2019-02-12 20:50:57 268

原创 ML in Action Note - Day 4/5/6/7 - SVM 未完成

研究了几天的SVM，发现实战书上的内容不详尽，于是把统计学习方法结合网上的一些博客了解了不少，确实这一章的公式推导有点吃力，不过每次在算出来后，那种畅快也是真的很让人愉快和兴奋的，抑制不住的兴奋，想要学习更多，只懊恼自己这么晚才转行，学习和理解的速度太慢。去年末学习python和python框架，上个月末才决心来学机器学习，发现机器学习中那么多有意思的东西，统计学和数学是真的很有趣啊。但是对于...

2019-02-09 11:13:57 135

原创 ML in Action Note - Day 3/4 - Logistics Regression

嘻嘻嘻，终于到这一章~自动去找到拟合参数简直太棒了好嘛> w <Logistics Regression：包括Gradient Regression和Stochastic Regression。优点：计算代价不高缺点：容易欠拟合，分类精度可能不高适用于数值型和标称型在这里，我们需要的函数是，接受所有的输入然后预测出类别。例如，在两个分类情况，输出0或1，这...

2019-02-06 13:21:15 183

原创 ML in Action Note - Day 3 - Naive Bayes

第4章：Naive BayesNaive Bayes：监督学习。通过计算概率进行分类。优点：数据量小的情况下仍然有效，可以处理多类别问题。缺点：对于输入数据的准备数据比较敏感。适用于标称型数据。公式：如果把w展开为独立特征，就成了，假设每个特征都相互独立，用来计算概率。P1：计算文本分类概率# 创建数据集def loadDataSet(): pos...

2019-02-05 15:10:59 179

原创 ML in Action Note - Day 2 - Decision Tree

第3章：Decision Tree决策树：根据不同特征建立分支优点：计算复杂度不高，输出结果容易理解，对中间值的缺失不敏感，可以处理不相关特征数据。缺点：可能会产生overfitting。 P1：划分数据集，创建决策树信息增益：划分数据集前后信息发生的变化称为信息增益。熵entropy：集合信息的度量方式就称为熵。熵定义为信息的期望值。如果袋分类的事务可能划分在多个...

2019-02-04 16:55:28 165

原创 ML in Action Note - Day 1 - kNN

第1章：略过第2章：kNNkNN（k-NearestNeighbor）属于监督学习，是分类数据最简单有效的算法，需要实际数据来训练样本数据，为基于实例的学习。如果训练数据集很大，那么计算会很耗时。通过改变k的值，修改训练样本，改变样本的数目，会对错误率产生影响。主要思想：根据欧式距离计算分析最近距离的K个点的类型优点：精度高，对异常值不敏感，无数据输入假定。缺点：计算复杂度高，...

2019-02-03 20:45:41 137

在宇宙的小角落填脑洞