![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习入门笔记
文章平均质量分 76
张文彬彬
这个作者很懒,什么都没留下…
展开
-
Udacity机器学习入门笔记——朴素贝叶斯
监督学习算法第一种Naive Bayes 朴素贝叶斯Scatter plot 散点图Decision Surface Linea 决策线朴素贝叶斯 是一个常见的寻找决策面的算法Bayes Rule 贝叶斯规则无人驾驶汽车是一个重要的监督分类(supervised classification)问题 监督:表示你有许多样本,我们可以说,你了解这些样本的正确答案监督式分类示例□ 拿一册带标...转载 2017-12-21 17:00:53 · 1874 阅读 · 0 评论 -
Udacity机器学习入门——特征缩放
Chirs体重+身高=146.1 Caneron体重+身高=180.9 Serah 体重+身高=120.2 从数据上看Chirs与S数值更接近,应该穿S大小衣服,但是由于体重和身高的度量标准差异(一个是个位数,一个是百位数)导致体重占据了主导位置,此时就用到特征缩放,使这些特征跨越的范围有可比性,通常是在0和1之间(包含0、1)特征缩放的一个优点是预估输出相对稳定...原创 2018-04-26 23:48:21 · 380 阅读 · 0 评论 -
Udacity机器学习入门——文本学习
文本学习的基本问题与输入特征相关,我们学习的每个文件、每封邮件或每个书名,它的长度都是不标准的,所以不能讲某个单独的词作为输入特征,因此在文本的机器学习中有个功能——词袋Bag of Words,基本理念选定一个文本,然后计算文本的频率Nice Day与A Very Nice Day Mr Day Lov...原创 2018-05-03 21:42:13 · 733 阅读 · 1 评论 -
Udacity机器学习入门——交叉验证(cross-validation)
测试数据可以让你评估你的分类器或回归在独立数据集上的性能,还能帮助你避免过度拟合在sklearn中训练/测试分离sklearn链接:http://scikit-learn.org/stable/modules/cross_validation.html加载数据集以适应线性SVM:from sklearn import datasetsfrom sklearn.svm import SVCir...原创 2018-05-09 19:41:13 · 1374 阅读 · 0 评论 -
Udacity机器学习入门——主成分分析PCA
以下数据是一维还是二维练习1:通过PCA找到新坐标系的中心(2,3),△x=1,沿坐标系x’向右移,则△y=1;△y=1,沿坐标系y’向上移,则△x=-1向量长度√2,按原坐标系计算练习2:通过PCA找到新坐标系的中心(3,3),△y=-1,沿坐标系x’移动,则△x=2;△x=1沿坐标系y’移动,则△y=2 x’=0.5a+3.5 x’+△y=0.5(a+△x)+3.5 因为△y...原创 2018-05-09 11:09:26 · 1116 阅读 · 0 评论 -
Udacity机器学习入门——回归
连续监督学习连续分类器与离散分类器连续通常是有序的(如年龄,收入(10000和9999是没差的))离散通常是无序的(如入职id(两个人之间不存在任何关系)、天气(晴天或雨天)、根据姓名查找电话号码(连续号码是不存在任何关系的))PS:视为离散的多数事物在某种程度上是连续的(如把天气表示为在某个时间段内日光投射到地面上某一地区的量,即连续的计量))线性回归方程:Target目标变量:尝试预测的变量,...原创 2018-04-19 20:20:48 · 390 阅读 · 1 评论 -
Udacity机器学习入门——聚类Clustering
非监督学习:聚类、降维聚类:K-means1.随意画出聚类中心2.分配3.优化连接集群中心,画等距垂直于两集群连线的线优化:移动中心再分配,再优化········直至两个类的正确中心位置很有意思的k-means可视化工具 http://www.naftaliharris.com/blog/visualizing-k-means-clustering/聚类算法 http://scikit-learn...原创 2018-04-23 23:36:05 · 747 阅读 · 0 评论 -
Udacity机器学习入门——异常值outlier
什么可能导致异常值:根据具体事件选择忽略还是重视(欺诈侦测)传感器故障、(忽略)数据输入错误、(忽略)外部数据×反常事件(通常需要重视)选择异常值异常值检测-删除算法训练异常值检测——找出训练集中访问最多的点,去除这些点(一般约10%的异常数据)再训练 (可能需要重复2、3步骤多次)删除前:删除后异常值删除策略小结:这里要注意有的地方是要保留异常值,去除正常的数据的(异常检测、欺诈检测)。1训练2...原创 2018-04-23 19:01:41 · 2536 阅读 · 2 评论 -
Udacity机器学习入门笔记——数据集与问题
MORE DATA>FINE-TUNED ALGORITHM 更多的数据集要比经过精密调整的算法可以提供更好的结果,使用更多的数据几乎总能帮助算法取得更好的效果数据类型:值数据:基本特征就是数值(薪水信息)分类数据(categorical):类别变量,监督分类较多,包括有限数量的离散值(职位——有限的工作种类)时序数据:时间变量(邮件中的时间戳、金融)文字数据:词袋模型(邮件内...原创 2018-04-13 15:20:43 · 526 阅读 · 0 评论 -
Udacity机器学习入门笔记——自选算法 随机森林
自选三个算法之一:随机森林参数调整学习(Google自带翻译ε=(´ο`*))))http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html在ud120-projects\choose_your_own\your_algorithm.py中添加以下代码from sklea...原创 2018-04-03 12:58:27 · 255 阅读 · 1 评论 -
Udacity机器学习入门笔记——决策树
监督学习算法第三种——决策树decision trees 决策树可以通过核技巧把简单的线性决策面转换为非线性决策面 百度百科:决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值 通过坐标数据进行多次分割,找出分界线,绘制决策树。在机器...原创 2018-04-02 16:15:57 · 668 阅读 · 1 评论 -
Udacity机器学习入门笔记——支持向量机(SVM)
监督学习算法第二种SVM原则对他涉及的分类均最大化了最近点的距离——Margin支持向量机总是将正确分类标签作为第一考虑要素,然后再对间隔进行最大化 如果我们不关注分类正确,那么会得到很多比这两个线更能使间隔最大化的线~ 比方说在无穷远处~ 所以对于支持向量机,你必须尽力保证分类正确。在此前提下,对间隔进行最大化有异常的情况下当有异常数据时,上述原则显然无法直接使用 ,需要标注异常值此时可以尽力使...转载 2017-12-27 10:16:34 · 611 阅读 · 0 评论 -
Udacity机器学习入门——特征选择
练习:一个新的安然特征练习poi_flag_emal.py if from_emails: ctr=0 while not from_poi and ctr < len(from_emails): if from_emails[ctr] in poi_email_list: from_poi = T...原创 2018-05-07 17:47:21 · 742 阅读 · 0 评论