数据挖掘

也能面数据挖掘的岗位:比较契合一点

机器学习——数据挖掘——软件开发的顺序

 

2、热爱编程,基础扎实,熟悉操作系统、算法、数据结构、计算机网络及数据库相关知识; 
3、至少熟练掌握一种编程语言,如:Java/Python/C++等,熟悉Linux/Unix开发环境; 
4、熟悉大数据相关技术,如hadoop,spark,hbase,kafka等; 

 

机器学习课程,花了378,试听了一节课感觉懂的东西很多

让这个钱变的有价值,不要对不起自己

概率论:

排列:

和顺序有关

排列的定义:从n个不同元素中,任取m(m≤n,m与n均为自然数,下同)个元素按照一定的顺序排成一列,叫做从n个不同元素中取出m个元素的一个排列;从n个不同元素中取出m(m≤n)个元素的所有排列的个数,叫做从n个不同元素中取出m个元素的排列数,用符号 A(n,m)表示

公式下数阶乘除差值阶乘

0!=1

组合:

与顺序无关

组合的定义:从n个不同元素中,任取m(m≤n)个元素并成一组,叫做从n个不同元素中取出m个元素的一个组合;从n个不同元素中取出m(m≤n)个元素的所有组合的个数,叫做从n个不同元素中取出m个元素的组合数。用符号 C(n,m) 表示

 

看视频的新领悟

机器学习中的标签:

压力值0,1就是标签,最后会统计标签的比例来预测此时的压力值

 

深度学习最重要的就是神经网络

ANACONDA集成环境,这个安装后有很多库,也有IDE

NoteBook(ANACONDA已经配置好了,可以在浏览器中写程序)边写代码,边做笔记

人工智能是个很大的圈子,但基础是机器学习。深度学习是机器学习中神经网络算法的延伸

机器学习可以干:数据挖掘

边看边写代码,不要想着视频看完了再去写

概率论这门课很重要的,边学边查

学生问的问题偏向公式推导,程序员偏向框架项目流程

学习习惯:不是照着别人博客抄,按照自己的理解写,否则今天看,今天懂,但明天就回忘记

案例去GITHUB KAGGLE找,多模仿,不可能从头到尾来,都是之前积累下的案例(做任何项目记着开博客,积累)

 

机器学习常用库

常用库:调用这些库解决实际问题

科学计算库Numpy,数据矩阵运算

shape打印矩阵的行列

ndim打印矩阵维度

dtype打印元素类型

数据可视化库Pandas,数据处理

用NaN表示缺失值,缺失值过多,会直接去掉此列

pandas库函数读取的csv文件整体的数据类型为dataForm

如在从整体中读取一行或者一列则为series数据类型

series中的数据结构为ndarray

说明pandas封装了Numpy

用pandas直接对手环的csv文件进行读取(pandas.read_csv(文件名)),不需要采取打开文件,一行行读取的方法

 

字符排序:按照字典集排序的

 

画图库:Matplotlib(只需要当工具用即可,没有涉及到数据分析和机器学习)

集合书本和视频的画图部分基本能很好的解决

折线图 柱形图 

横轴字符过多,倾角显示;横轴纵轴含义,标题

师姐论文中的像擀面杖的图叫盒图(在视频:柱形图和盒图中讲的很清晰)

seaborn对Matplotlib进一步封装,需要额外安装

别人论文中用的是小正方形表示的,但是用六边形比较好

 

有监督学习分成两类:回归(值)和分类(类别,三角形被认作为圆圈的例子)

 

盒图

四分位距:四分之一(盒子下端)到四分之三(盒子上端)的距离,不要错误认为二分之一处在盒图最大值和最小值的二分之一处,可能小于1/2的点占多数
看点的索引位置,而不是看点的大小

离群点用菱形表示,与1.5的四分位距相关,盒子下端减此值,盒子上端加此值

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值