机器学习(统计学方法实现人工智能)
定义
机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测
工具包
sklearn,numpy,pandas,matplotlib,seaborn
数据挖掘
数据挖掘使用诸如机器学习,统计和数据库之类的方法来发现相对大量的数据集中的模式和知识,涉及数据预处理,模型和推理,可视化等。
什么是机器学习?
机器学习=寻找一种函数(目前阶段,要求会用)
如何寻找这个函数?
①定一个函数集合
②判断函数的好坏
③选择最好的函数
机器学习开发流程
获取数据/数据处理/特征工程/机器学习算法训练-模型/模型评估/应用
机器学习三板斧
①设计模型model
②判断模型的好坏
③选择最好的函数,优化模型
3.1修改模型,增加数据维度 3.2增加正则因子,使函数更加平滑,让参数w取值更小。(x变化较小时,整个函数结果不会变化太大,结果更准)
学习路线
监督学习:有数据标注情况下学习(回归、分类)
目标值:类别—分类问题
目标值:连续型数据——回归问题
半监督学习:训练数据中带标记的数据不够多
迁移学习:在已学习基础上,做看似和以前学习不相关的事情,但实际效果很好(在猫狗识别基础识别大象老虎等)
非监督学习:没有具体标注数据的情况下学习(机器阅读、机器绘画)
无目标值
结构化学习:超越简单的回归和分类,产生结构化的结果(如图片、语言、声音)
机器学习与深度学习关系
机器学习包含深度学习,人工智能包含机器学习
机器学习和数据分析流程
机器学习:数据收集,数据预处理,特征选择,模型训练,模型评估,超参数调优,预测
数据分析:定义问题,数据收集,数据清洗,探索性数据分析,建立模型,结果解释,报告撰写
机器学习方法三要素
机器学习方法 = 模型 + 策略 + 算法
模型就是对一个实际业务问题进行建模,将其转化为一个可以用数学来量化表达的问题
策略就是定义损失函数来描述预测值与理论值之间的差距,将其转化为一个使损失函数最小化得优化问题
算法指的是求解最优化问题得方法,一般将其转化为无约束优化问题,然后利用梯度下降法和牛顿法等进行求解
设置默认安装地址
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple/
conda常用命令
conda list:查看环境中的所有包
conda env list:列出所有环境
conda create -n XXX:创建名为 XXX 的环境
conda create -n env_name jupyter notebook :创建虚拟环境
activate noti(或 source activate noti):启用/激活环境
conda env remove -n noti:删除指定环境
deactivate(或 source deactivate):退出环境
jupyter notebook :打开Jupyter Notebook
conda config --remove-key channels :换回默认源
反向传播算法(Backpropagation(求导哈哈))
是一种用于训练人工神经网络的常见方法。它通过计算网络预测与实际结果之间的误差,然后反向传播这个误差来调整网络中每个权重的值,从而逐步优化网络的学习过程