2018年08月_PasPerCon

原创《TensorFlow实战Google深度学习框架》读后小结（二）

本部分是书中的第五章内容。第五章 MNIST数字识别问题1. TensorFlow提供了封装好的MNIST数据处理类，在这里将直接使用这个类，将数据从原始的数据包中解析成训练和测试神经网络所使用的格式。每一张图片是一个28*28的大小，处理后的图片是一个长度是784的一维数组。数组中的数字大小在[0 1]之间。2. 训练、验证和测试使用神经网络进行训练数据集。因为神经网络...

2018-08-28 15:11:12 221

原创《TensorFlow实战Google深度学习框架》读后小结（一）

这部分涉及书中的前四章内容。代码网址：https://github.com/caicloud/tensorflow-tutorial。TensorFlow的优势：（1）强大的分布式支持，适合在海量数据集上对模型进行训练。（2）有强大的可移植性，支持GPU、CPU、安卓、iOS等平台。第一章深度学习的简介1. ...

2018-08-27 18:48:45 278

原创机器学习实战读书笔记（五）

本部分介绍Apriori算法用于关联分析以及FP-growth算法来高效发现频繁项集。10. Apriori算法（1）关联分析从大规模数据集中寻找物品间的隐含关系被称为关联分析。关联分析有两种形式：频繁项集或关联规则。频繁项集：经常在一起的物品的集合；关联规则：暗示两种物品之间存在很强的关系。定义频繁项集中最重要的是支持度和可信度。支持度是数据集中包含该项集的记录所占的比例。可...

2018-08-26 23:37:45 328

原创机器学习实战读书笔记（四）

这部分介绍降维常用的方法。12. PCA1. 简要介绍降维技术可以在已标记的数据上采用降维技术，也可以在未标记的数据上采用降维技术。降维的目标是对输入的数目进行削减，来剔除数据中的噪声并提高机器学习方法的性能。主要有三种降维技术：a. 主成分分析（PCA）第一个新坐标轴选择原始数据中方差最大的方向，第二个新坐标轴选择与第一个坐标轴正交且具有次最大方差的方向。一直重复该过程，重复...

2018-08-25 21:12:47 240

原创机器学习实战读书笔记（三）

从本节开始，将介绍无监督学习。今天整理了无监督学习中的k均值聚类算法和MapReduce部分的内容。本部分是8月24号的内容。9. k均值聚类算法（1）k均值聚类算法优点：易于实现。缺点：可能收敛到局部最小值，在大规模的数据集上的收敛速度慢。适用数据类型：数值型。可以用的误差指标如误差的平方和（Sum of Squared Error，即SSE）来评价算法的效果。k值是需要...

2018-08-25 18:46:39 330

原创机器学习实战读书笔记（二）

第二部分将介绍回归问题，采用的方法有线性回归、局部加权回归、收缩方法（第7小节）树回归（第8小节）。该部分是8月23号的更新内容。7. 回归采用或者预测值与数据的拟合度来分析模型的拟合程度。（1）线性回归优点：易于理解，计算不复杂。缺点：对于非线性的数据拟合不好。适用数据类型：数值型和标称型。求解系数：逆可能不存在；采用正规矩阵的...

2018-08-24 08:52:24 241

原创机器学习实战读书笔记（一）

针对于分类问题，书中介绍了K近邻、决策树、朴素贝叶斯、Logistic回归、支持向量机和AdaBoost方法。下面将介绍其优缺点。1. K近邻优点：精度高、对异常值不灵敏、无数据输入假定（例如Logistic回归中x0=1等）。缺点：计算复杂度高，空间复杂度高。无法给出任何数据的基础结构信息。适用数据范围：数值型、标称型。2. 决策树优点：计算复杂度不高，输出结果容易理解（...

2018-08-22 23:42:32 496

原创 Git学习总结（四）

5.标签管理标签其实就是指向某个commit的指针（commit编号是16进制的，跟分支很像。但是分支可以移动，标签不能移动），所以，创建和删除标签都是瞬间完成的。tag便于被识别，是和commit捆绑在一起。（1）创建标签标签不是按时间顺序列出，而是按字母排序的。标签总是和某个commit挂钩。如果这个commit既出现在master分支，又出现在dev分支，那么在这两个分...

2018-08-21 22:11:08 153

原创 2018年秋招大疆机器学习算法工程师在线笔试答题总结

1. Adagrad同其它方法相比的优劣势https://blog.csdn.net/u014595019/article/details/529893012. BP神经网络的反向传播的推导3. 图像增强的方法http://www.doc88.com/p-678855356872.html4. ReLU、Leaky ReLU、Sigmoidhttps://www.v2ex....

2018-08-21 21:29:26 2233

原创 Git的使用总结（三）

3.远程仓库若只是对比管理文件的历史的话，那么混帐与SVN是没有什么差别的git的的优势在于远程仓库。可以在一台电脑上克隆多个仓库，不过一般不这么做，因为在一台电脑上搞好几个远程是没有意义的，而且硬盘挂了的话所有的库都会挂掉。实际情况往往是这样，找一台电脑充当服务器的角色，每天24小时开机，其他每个人都从这个“服务器”仓库克隆一份到自己的电脑上，并且各自把各自的提交推送到服务器仓库里，也从...

2018-08-21 21:28:47 110

原创 Git的使用总结（二）

从本次总结开始，有三次总结（总结（二），总结（三），总结（四））来简要介绍下Git的使用。可以将这三部分内容与我之前写的“Git的简单使用技巧“相结合，以了解和掌握对的混帐的常用命令和技巧的使用参考网址是：https://www.liaoxuefeng.com/wiki/0013739516305929606dd18361248578c67b8067c8c017b000。简介GitGI...

2018-08-20 23:25:05 137

原创知乎专栏 —机器学习笔试题精选试题总结（三）

参考网址：http://redstonewill.com/1487/1. KNN：距离度量方式。得到的边界可能不是线性的。2. 在一个测试集上可以得到准确率是100%的模型在另一个测试集上不一定是100%（例如现实数据存在噪声）。3. 交叉验证：如Bootstrap、留一法、k折交叉检验Bootstrap：从含有n个样本的样本集中有放回地随机选取一个（即下一次选取的样本可能和上一次...

2018-08-14 23:24:38 291

原创机器学习学习小结（3）

1. scikit-learn环境在Anaconda常用的命令（在Anaconda Prompt中键入）：https://www.jianshu.com/p/169403f7e40c若在window命令窗口中直接输入conda list会提示不是内部或外部命令：https://blog.csdn.net/idlethetimewithu/article/details/78913418...

2018-08-12 23:00:56 187

原创机器学习学习小结（2）

1. 相比于学习小结中的（1）中所说的类型，这里涉及常用的文本文章中的词袋法和TF-IDF。1）词袋法：文本中出现的词条及其出现次数。例如单词A、B、C...，怎么得到对应的出现频率呢？有两种方法：a）在整个文档中考虑所有的词汇，得到每个词汇出现的次数，计算频率；b）只在对应领域内的专业词汇的范围内考虑，得到在该范围内对应词汇出现的频率。将次数/频率及对应的单词以字典的形式...

2018-08-10 14:29:40 224

原创机器学习学习小结（1）

1. 廖雪峰的网站博客网址：https://www.liaoxuefeng.com/如何学习机器学习网址：https://www.liaoxuefeng.com/discuss/001409195742008d822b26cf3de46aea14f2b7378a1ba91000/001533286342441c4da9d8faeba4c1db70a5142872e408700...

2018-08-09 23:15:56 283

原创知乎专栏 —机器学习笔试题精选试题总结（二）

参考博客：http://redstonewill.com/1207/机器学习笔试题精选试题六1. 对于大量的训练数据以及特征的维数比较大时，怎么进行训练模型呢？可以采用的方法有：1）对训练集随机采样，在随机采样的数据上建立模型；2）尝试使用在线机器学习算法；3）使用 PCA 算法减少特征维度。对于2）而言，离线学习是我们最为常见的一种机器学习算法模式，使用全部数据参与训练...

2018-08-02 10:44:40 878

PasPerCon