也能面数据挖掘的岗位:比较契合一点
机器学习——数据挖掘——软件开发的顺序
2、热爱编程,基础扎实,熟悉操作系统、算法、数据结构、计算机网络及数据库相关知识;
3、至少熟练掌握一种编程语言,如:Java/Python/C++等,熟悉Linux/Unix开发环境;
4、熟悉大数据相关技术,如hadoop,spark,hbase,kafka等;
机器学习课程,花了378,试听了一节课感觉懂的东西很多
让这个钱变的有价值,不要对不起自己
概率论:
排列:
和顺序有关
排列的定义:从n个不同元素中,任取m(m≤n,m与n均为自然数,下同)个元素按照一定的顺序排成一列,叫做从n个不同元素中取出m个元素的一个排列;从n个不同元素中取出m(m≤n)个元素的所有排列的个数,叫做从n个不同元素中取出m个元素的排列数,用符号 A(n,m)表示
公式下数阶乘除差值阶乘
0!=1
组合:
与顺序无关
组合的定义:从n个不同元素中,任取m(m≤n)个元素并成一组,叫做从n个不同元素中取出m个元素的一个组合;从n个不同元素中取出m(m≤n)个元素的所有组合的个数,叫做从n个不同元素中取出m个元素的组合数。用符号 C(n,m) 表示
看视频的新领悟
机器学习中的标签:
压力值0,1就是标签,最后会统计标签的比例来预测此时的压力值
深度学习最重要的就是神经网络
ANACONDA集成环境,这个安装后有很多库,也有IDE
NoteBook(ANACONDA已经配置好了,可以在浏览器中写程序)边写代码,边做笔记
人工智能是个很大的圈子,但基础是机器学习。深度学习是机器学习中神经网络算法的延伸
机器学习可以干:数据挖掘
边看边写代码,不要想着视频看完了再去写
概率论这门课很重要的,边学边查
学生问的问题偏向公式推导,程序员偏向框架项目流程
学习习惯:不是照着别人博客抄,按照自己的理解写,否则今天看,今天懂,但明天就回忘记
案例去GITHUB KAGGLE找,多模仿,不可能从头到尾来,都是之前积累下的案例(做任何项目记着开博客,积累)
机器学习常用库
常用库:调用这些库解决实际问题
科学计算库Numpy,数据矩阵运算
shape打印矩阵的行列
ndim打印矩阵维度
dtype打印元素类型
数据可视化库Pandas,数据处理
用NaN表示缺失值,缺失值过多,会直接去掉此列
pandas库函数读取的csv文件整体的数据类型为dataForm
如在从整体中读取一行或者一列则为series数据类型
series中的数据结构为ndarray
说明pandas封装了Numpy
用pandas直接对手环的csv文件进行读取(pandas.read_csv(文件名)),不需要采取打开文件,一行行读取的方法
字符排序:按照字典集排序的
画图库:Matplotlib(只需要当工具用即可,没有涉及到数据分析和机器学习)
集合书本和视频的画图部分基本能很好的解决
折线图 柱形图
横轴字符过多,倾角显示;横轴纵轴含义,标题
师姐论文中的像擀面杖的图叫盒图(在视频:柱形图和盒图中讲的很清晰)
seaborn对Matplotlib进一步封装,需要额外安装
别人论文中用的是小正方形表示的,但是用六边形比较好
有监督学习分成两类:回归(值)和分类(类别,三角形被认作为圆圈的例子)
盒图
四分位距:四分之一(盒子下端)到四分之三(盒子上端)的距离,不要错误认为二分之一处在盒图最大值和最小值的二分之一处,可能小于1/2的点占多数
看点的索引位置,而不是看点的大小
离群点用菱形表示,与1.5的四分位距相关,盒子下端减此值,盒子上端加此值