机器学习note
shuiyuejihua
这个作者很懒,什么都没留下…
展开
-
1.欢迎学习机器学习(machine learning)
1.什么是机器学习 1.应用:图片、语音识别,垃圾邮件检测,诈骗检测,股票市场,教计算机下棋,自动驾驶汽车 2.人和机器的不同,人可以从过去的经验中进行学习,而机器只能执行编写好的代码 定 义:教会计算机利用过去的经验来完成指定的任务。过去的经验,记录的数据,训练集2.常见的机器学习算法决策树 比如根据对用户下载的app分析数据,然后对不同的用户,推荐不同的app朴素贝叶原创 2017-11-11 15:57:59 · 367 阅读 · 0 评论 -
模型性能度量 混淆矩阵
1.回归模型度量方法:均方误差 mean_squared_errorR2分数 r2_score可释方差分数 explained_variance_score2.分类模型度量方法:错误率、精度accuracy。分类错误或正确的样本数占样本总数的比例在查准率、查全率、f分数之前,先看看混淆矩阵,容易晕人这个混淆矩阵:样本实际情况(True、False)、预测结果(...原创 2018-01-04 16:53:09 · 554 阅读 · 0 评论 -
模型评估方法
1.留出法 hold-out一定比例划分出训练集、测试集 保证数据分布的一致性,否则划分后数据分布差异产生偏差;每次数据划分的地方不同,结果就不同。单次使用留出法,结果不可靠一般训练集在2/3到4/5之间2.交叉验证 cross validation随机不同的划分 特例 : 留一法 leave-one-out ,K-1个训练集、余下的作为测试集 结果比较准确;计算复杂度高3.自助原创 2018-01-03 16:00:09 · 517 阅读 · 0 评论 -
2.1 中位数、平均值、众数的总结
中位数、平均值、众数的总结中位数 median 1.中位数,数据从小到大排序,中间位置的那个数字。奇数,+1除以2;偶数,则用除以2,除以2然后+1,这两项的和,再除以2求个平均 2.不容易受到数据两端的异常值影响,不受组距影响;在直方图上,左右面积大概相等的位置点。比如5出现10次,然后6 7 8 9 9 9 9 ,这样5的这条方块就比较高,中位数偏5这边。比毕竟555555555567原创 2017-10-31 10:03:25 · 3728 阅读 · 0 评论 -
数据整理
1.收集数据根据数据来源及其格式,收集数据的步骤各不相同高级收集过程:获取数据(从互联网下载文件、抓取网页、查询 API 等),然后将该数据导入编程环境(例如 Jupyter Notebook)。2.评估数据评估数据的目的包括:质量:内容问题。低质量数据也称为脏数据。整洁度:使分析难易进行的问题。不整洁数据也称为杂乱数据。条理数据的要求包括: 每个变量成一列。每个观察结果成一行。每原创 2017-12-19 23:35:45 · 528 阅读 · 0 评论 -
windows 7 下cuda 9.0 卸载、cuda8.0 安装
1.首先对于cuda8.0、cuda7.5的卸载都可以兼容安装cuda9.0之后,电脑原来的NVIDIA图形驱动会被更新,NVIDIA Physx系统软件也会被更新(安装低版cuda可能不会被更新)。卸载时候要注意了,别动这2个。2.卸载:1.前言:杀毒软件别用来卸载这个了,不好找。打开电脑的控制面板,找到程序,卸载程序点击当天安装的时间,会找到刚才装的cuda...原创 2017-12-07 11:43:33 · 70193 阅读 · 11 评论 -
3.2 支持向量机SVM
引言 粗略的说,支持向量机就是寻找分割线,或者超平面1. SupportVectorMachines1.1. 导入代码:from sklearn.svm import SVCclf = SVC(kernel="linear")1.2 线性分离输入特征x,y,使用支持向量机分离1.3 非线性分离从输入特征x,y,到组合新特征,方便分离;比如变为x2+y2{x}^{2}+{y}^{2}组原创 2017-11-17 09:05:39 · 252 阅读 · 0 评论 -
3.3 决策树DecisionTrees
引言 一个接一个的解决多元线性问题,如同不停的问问题,不同问题的分支,就如同设定了多个决策面1. SupportVectorMachines1.1. 导入代码:from sklearn import treeclf = tree.DecisionTreeClassifier()1.2 决策树常见参数depth_map,越小容易高偏差,拟合不够,越大容易高方差,过拟合。min_sampl原创 2017-11-17 11:12:19 · 332 阅读 · 0 评论 -
3.1 贝叶斯算法Naive Bayes
引言 无人驾驶训练中,巡练汽车遇到不同的坡度和颠簸度时候,怎样控制车速快慢。在大量数据的形成的散点图中,寻找决策面,进行分类1. 在anaconda环境中安装scikit-learn1.1. 导入高斯NaiveBayes代码:from sklearn.naive_bayes import GaussianNB clf = GaussianNB()2.贝叶斯规则Bayes rule2.1 条件原创 2017-11-16 10:09:08 · 519 阅读 · 0 评论 -
2.机器学习基础
1.模型评估构建数据模型,机器学习从数据开始2. 中位数、众数、平均数3. 数据的差异性值域,值的分布区域IQR:统计学‘去尾’,去掉最低,总个数的1/4,最高,总个数的1/4。第一个四分数,Q1,第3个四分数,Q3,中位数就是Q2。IQR=Q3-Q1。IQR的不足,完全不同的数据集具有相同的IQR。异常值:小于Q1-1.5IQR;大于Q3+1.5IQR方差:平均平方偏差,方差越小数据越原创 2017-11-12 10:49:09 · 190 阅读 · 0 评论 -
数据分析
1.数据分析能干什么 商场根据数据,采购商品;根据数据来预测比赛;根据数据来预测哪种物质能制成有效药物;推送新闻;恋爱匹配;发布研究论文…2.数据分析过程提出想要解决的问题采集相关数据,研究数据数据探索,找出数据模式对结果进行总结或者预测分享、讨论2.1采集数据方法 下载数据、从网页中抓取、访问一些数据api,最后组合各种方式的数据 读取csv文档,方法:1impor原创 2017-11-13 17:00:04 · 456 阅读 · 0 评论 -
1.2 jupyter notebook 浏览器打开空白
jupyter notebook 需要用谷歌浏览器打开才可以,其他的浏览器打开后多半是空白的。添加默认浏览器如下:1.在anaconda prompt 里面直接输入jupyter notebook --generate-config让jupyter生成一个配置文件,生成后你会看到文件地址的2.然后就可以使用记事本之类的,打开这个jupyter_notebook_config.py文件然后查找,br...原创 2017-10-30 09:32:29 · 21261 阅读 · 7 评论 -
1.1安装anaconda
1.安装anaconda下载地址:http://mirrors.ustc.edu.cn,官方的地址下载速度慢,大家都在找镜像,大多数找清华镜像,其实这个也不错。其中anaconda2是指基于python2版本的,anaconda3是基于3版本的我下载的是window64位的,基本上按照操作,点击下一步安装就行了一般出现的情况是,安装到最后一步的时候失败了,创建快速启动栏的快捷方式失败。其实已经原创 2017-11-11 17:39:15 · 389 阅读 · 0 评论