机器学习整理No.1
Captain_Data
有问题可以私信交流呀~csdn当笔记用~
展开
-
如何用18天读完周志华老师的西瓜书(机器学习)
第一章 绪论1.1解释经验到模型过程1.2以西瓜案例解释学习器的产生,特征 有标签的为有监督,无标签的为无监督,模型需要有泛化能力1.3.假设空间问题,将所有特征的不同分类罗列出来,所形成的所有情况,称为假设空间1.4误差永远存在,在经验中得到归纳偏好,为不存在的案例做预测时要有偏好,而不是一次一个新结果,要求机器有学习能力1.5发展 -案例 介绍等第二章2.1 经验误差与过拟合,认知误差与过拟合,找到对应优化策略2.2评估方法:留出法+交叉验证法+自助法+调参与最终模型2.3建立性能度量原创 2022-05-17 23:32:57 · 671 阅读 · 0 评论 -
2.24 boost实例决策树gbdt
黄色为叶子结点,绿色年龄为为根节点,其他绿色为中间结点决策树画圆环将绿色筛选出来过程决策树最常用的算法有三种:ID3C4.5CARTid3id3缺点:分支多友好型id3倾向于分支比较多的属性作为分裂属性cartgini不纯度(基尼系数,基尼index)、...原创 2020-02-24 19:17:49 · 267 阅读 · 0 评论 -
NO.1 机器学习干货与代码参数详解
模型的一些通用方法:lg = LinearRegression()lg.fit(X,y)lg.coef_ lg.intercept_lg.predict(X_new)get_params([deep]):返回模型的参数。deep: 如果为True,则可以返回模型参数的子对象。set_params(**params):设置模型的参数。params:待设置的关键字参数。...原创 2020-03-11 01:46:50 · 1556 阅读 · 0 评论 -
机器学习 :逻辑回归 2.19
假设的函数本体,hθ(x)=g(复合函数 )广义被作用后,可用类似概率思维去理解以前学过最小二乘法这里用极的大似然法似然最大值,0.7重要公式推导(最大似然思想)...原创 2020-02-19 11:58:03 · 160 阅读 · 0 评论 -
2.20机器学习:交叉熵 信息熵 相对熵
01信息熵02单位bit 默认2 为底03联合熵pX交叉熵的计算二类损失原创 2020-02-20 11:50:41 · 294 阅读 · 0 评论 -
2.21逻辑回归损失函数 误差度量
上面代表单条特征,下面代表多条特征的损失函数2.误差度量:准确率:=TP+Tn/(TP+FP+FN+TN)查准率/精确率=TP/(TP+FP) 举例:抓小偷,务必提高精确率,预测准确,让好人少进来查全率/召回率=TP/(TP+FN)举例:FN是假阴性:新冠病人用的这个灵敏度 TPRroc 曲线X:fprY:TPR围成面积:auc1.导包2. 拟合数据3....原创 2020-02-21 12:30:38 · 973 阅读 · 0 评论 -
梯度提2.25 升决策树
已构建模型缺陷,永远离真实值有差距,于是引入新函数加入,让预测更逼近真实真实值,运用残差构建均差,以正负为结点已构建模型缺陷,永远离真实值有差距,于是引入新函数加入,让预测更逼近真实真实值,运用残差构建均差,以正负为结点函数解释(这是一个函数模型,之前学的是参数模型)分清:参数空间,函数空间求出数据均值,计算残差,mae找到最小残差(绝对值) ,利用遍历残差...原创 2020-02-25 17:29:50 · 227 阅读 · 0 评论 -
机器学习cv
1 定义,二阶导确定二阶函数保凸2 逐个点最大值保凸证明3 凸优化复杂矩阵,鞍点好多方法:多次初始化随机点4过拟合(面试问题)原因:训练和测试不是同一个分布怎么解决:?认识:吴恩达中间最好代码演示6预处理1,1空1.26: 代码01:学习曲线02结果展...原创 2020-02-18 12:20:22 · 1103 阅读 · 0 评论 -
2.25基尼系数
基尼系数代表不确定性,不确定越多,基尼系数越大rfgbdsvnbaggingboostingxgboost由内往外代入公式连续型数据的拟合回归树集成学习bagging原理多个策略不同的弱学习器 结果展现出答案为得到的最多值rf优点...原创 2020-02-25 15:06:30 · 759 阅读 · 0 评论 -
3.10机器学习复习
01:机器学习概念:有监督(带答案),无监督(无答案数据)02分类问题:什么数据分什么机器学习三要素:模型,策略,算法模型:knn kmeans策略:评价标准损失函数(01损失,平方损失,绝对损失,对数损失{交叉熵}))逻辑回归:对数损失(交叉熵损失函数)损失里包含两种损失风险,经验风险和结构风险,也有理解为惩罚的 J 有两种方法l1和l2 ( LASSO和 ...原创 2020-03-10 17:03:15 · 306 阅读 · 0 评论 -
机器学习
面试问机器学习 为了解决任务t,设计一个程序,达到性能度量P,当且仅当有了e,在经过p评判后,程序处理任务t时性能得到提升例1 扑克牌的联合分布(离散)判别方法直接学习条件概率后验,似然,先验,证据beta分布 概率的概率分布学生派,频率学派,贝叶斯派,垫子派,贝叶斯派应用性最好超级重要算法是:优化算法去求风险函数的最小值...原创 2020-02-13 12:05:53 · 236 阅读 · 0 评论 -
xgboost
svc 支持向量机代码39425157636669788496102配置包原创 2020-02-26 20:22:55 · 175 阅读 · 0 评论 -
集成学习
集成学习1.并行学习策略:代表:随机森林2.串连学习策略3.随机森林:参数:adaboost 就分类器问题,有两个权重,分别是记录权重:分类错误得记录受到更多关注,弱分类器权重:弱分类器错误率高,权重低...原创 2020-03-30 17:07:32 · 183 阅读 · 0 评论 -
3-19词 与词向量
特征处理热力图显示相关性拉普拉斯平滑高斯分布 如何检验数据是否符合正太分布1 画图,直方图,2数据大于5000,用ks,小于5000,用sw导包:scipy.stats...原创 2020-03-19 15:28:56 · 195 阅读 · 0 评论 -
3.9词云,词向量
向量:在分词上,加上向量:word2vec,doc2vcfrom gensim.models import word词向量-》句向量原创 2020-03-09 15:56:23 · 308 阅读 · 0 评论 -
3.3分裂
层次法 结果一致,准确,缺点:慢原理原创 2020-03-03 12:24:56 · 295 阅读 · 0 评论 -
列表推导式+time库+dataframe+groupby
1. 实现列表去重 L1 = [1, 1, 2, 3, 4, 2, 4]2. 列表推导式实现L1 每个元素加13. 列表推导式实现获取L1 中大于2的元素4. map 加 lambda 实现每个元素加 15. 把字符串“19 - 10 - 0 8” 转化为时间6.1582713904 转化为时间7 “2018 - 2 - 26” 转化为时间戳8 df2 = pd.Dat...原创 2020-02-26 23:00:24 · 347 阅读 · 0 评论 -
3.2 面试题
# # 1 列表与元组的区别# 列表是[],元组是(),列表可修改,元组不可修改,# # 2 python 中切片的格式# 如 list[0:6],会取到位于0-5的内容# 3 浅拷贝和深拷贝的区别# 浅拷贝只拷贝一级结构,而深拷贝会把被拷贝的结构的所有结构层次拷贝出来# # 4 Pass Continue break 的区别 # pass 占位跳过这一次运...原创 2020-03-02 12:44:30 · 241 阅读 · 0 评论 -
面试01
1 数据中心结构 20多人5-6 爬虫hadoop :etl 运维 15 16分析师 3 ,4 人 组长 (汇报人)产品经理:—分析师(交流)分析师参与会议产品经理 需要数据分析师运营 需要数据分析师外包人多:按人 /工时员工 工作经验 学历 职别 时长1清洗数据2建模 衍生特征3确定需求,获取数据,进度交接(跟甲方人)4报告,使用说明书,技术说明书(字段说明)汇...原创 2020-04-20 09:52:53 · 173 阅读 · 0 评论 -
3.4分词
分词技术:1.统计分词法(最好的,按词频)a.nGramb.隐马尔可夫,HMMc 条件随机场机械分词法a正向最大分类法(从左到右)2逆向最大匹配法(从右到左)c:最少切分(...原创 2020-03-04 10:47:04 · 210 阅读 · 0 评论 -
3.5lda
文章---->记录tf_idf 词的重要性bow 词袋 词频sow 词集 是否存在稀疏矩阵降维 正则化 pca_主要成分分析原创 2020-03-05 11:10:53 · 236 阅读 · 0 评论 -
推荐算法
推荐算法用户喜好 (用户收藏,购买,下单)用户相似度 (商品交集/商品并集)估计喜好 = 用户相似度 · 喜好 (两个矩阵相乘 或 1/(1+距离))...原创 2020-04-09 00:04:07 · 323 阅读 · 0 评论 -
no.21数据分析 我用过的包 wang
#忽略警告import warningswarnings.filterwarnings(‘ignore’)import pandas as pdimport numpy as npimport reimport os 查看文件路径from datetime import datetime读文件的import json聚类from sklearn import cluster #聚类import scipy.cluster.hierarchy as sch #绘制谱系图#画图原创 2020-05-19 21:24:39 · 295 阅读 · 0 评论 -
no.20 算法 模型 步骤
建模分析的步骤1 确定需求,提取数据2 数据预处理(异常值,缺失值)3 特征选择4 对离散数据编码(哑变量,虚拟变量)3 拆分训练集,测试集4 选择并训练模型(多个备选模型)5 模型评估6 保存模型7 投入生产数据预处理1 异常值离散型(定性): value_counts(),unique() 方法: 改为缺失连续型(定量): 箱型图原则(1.5IQR),3西格玛(3倍标准差) 方法:改为缺失,盖帽法2 缺失值1. 小于15%可以补充2. 15% `5原创 2020-05-19 21:17:20 · 1102 阅读 · 0 评论 -
机器学习篇-船长总结(hsrjdz01)
建模分析的步骤1 确定需求,提取数据2 数据预处理(异常值,缺失值)3 特征选择4 对离散数据编码(哑变量,虚拟变量)3 拆分训练集,测试集4 选择并训练模型(多个备选模型)5 模型评估6 保存模型7 投入生产数据预处理1 异常值离散型(定性): value_counts(),unique() 方法: 改为缺失连续型(定量): 箱型图原则(1.5IQ...原创 2020-04-21 19:21:21 · 530 阅读 · 0 评论 -
no评分卡
评分卡项目woe = ln(distr.good/distr.bad)iv=sum(distr.good_i-distr.bad_i)*ln(distr.good_i/distr.bad_i)有系数和常数的几个模型:ols lasso ridgo linor 线性逻辑回归 分类 woe 计算步骤分解: 最后需要 将woe 正值化1计算特征woe,2计算iv (>...原创 2020-04-09 02:14:01 · 202 阅读 · 0 评论 -
No.0.0.1 基础 数据函数与numpy初识与pandas 全总结
lambda映射函数map()- x代表后面列表中每一个数,x+2表示将每一个x加2list1=map(lambda x:x+2,[1,2,3,4,5,6,7,8,10,12])#加2list(list1)filter 过滤函数筛选出x%2==0的数reduce 累计算数from functool import reduce...原创 2020-01-14 16:44:12 · 450 阅读 · 0 评论 -
No.1.6决策树 id3 /c4.5 / cart 优缺点
1决策树基于信息增益,信息熵3 个算法id3算法缺点:c4.5/ cart原创 2020-03-25 23:08:24 · 873 阅读 · 0 评论 -
逻辑回归:逻辑回归中的参数
LogisticRegression,一共有14个参数:逻辑回归参数详细说明参数说明如下:penalty:惩罚项,str类型,可选参数为l1和l2,默认为l2。用于指定惩罚项中使用的规范。newton-cg、sag和lbfgs求解算法只支持L2规范。L1G规范假设的是模型的参数满足拉普拉斯分布,L2假设的模型参数满足高斯分布,所谓的范式就是加上对参数的约束,使得模型更不会过拟合(overfi...转载 2020-03-24 21:23:29 · 5924 阅读 · 0 评论 -
链家数据 经验报告 数据处理流程 谷
#数据要求Y 正态1.对数变换2.数据切割#数据处理顺序数据直接数值化:有条件可以做哑元化分类数据哑元化–虚拟化–onehot (m个, m-1个)如果方程有常数项 哑元化 m-1个如果方程没有常数项 哑元化 m个衍生变量:异常值:离散型: 根据业务定连续型: 3倍标准差,1.5倍IQR, DBScan密度聚类处理:删除,作为缺失值,连续型异常值特多————离散...原创 2020-03-24 19:55:28 · 569 阅读 · 0 评论 -
2020-319 几种分类器评估与调优方法手写整理 37互娱笔试题
原创 2020-03-19 21:47:52 · 297 阅读 · 0 评论 -
1.5.1梯度下降 与用法,三种梯度下降
理解梯度下降,第一点:梯度下降 是作用于 代价函数的(这里将损失函数和代价函数放在一起,风险函数与认为是代价函数)第二:这里的线性回归的代价函数是 用 原函数与预测到的函数差的平均方差来描绘的分别对θ1和θ2求导得到的两个梯度函数在两个梯度函数里头计算所有的梯度方向,合并起来就是梯度下降最快i的方向1)批量梯度下降(BGD) :算所有的梯度,求平均方向,作为批量梯度的梯度下降方...原创 2020-03-15 01:47:05 · 293 阅读 · 0 评论 -
No.1.5 梯度下降 的个人理解
梯度下降的个人理解,学了很久,看了很多代码,总结出这份梯度下降笔记用代码解释思路#导包import numpy as np# 直接定义损失函数def f(x): return x**2-4*x+4#导数def h(x): return 2*x-4 #损失函数的导数x=16 # 定义初始横坐标为16alpha=0.1 #步长或学习率为0....原创 2020-03-13 21:41:52 · 239 阅读 · 0 评论 -
No.1.4
1.1 线性回归 1)单变量线性回归 2)最二乘和梯度下降 3)多变量线性回归 *4)多变量多项式回归数据案例线性回归求解目标:找到θ1,θ2 个人理解:利用均方误差代替损失函数,用平方损失代替风险R,又因为误差有正有负,所以要用平方消去符号在求解θ1,θ2 过程中,采用梯度下降方法,随机梯度下降梯度下降有三种方法,随机梯度下降,小批量梯度下降,*下...原创 2020-03-13 01:35:34 · 284 阅读 · 0 评论 -
No.1.3 共轭先验 算法三要素
先验分布和似然函数使得使得先验分布和后验分布有相同的分布,则 先验分布和似然函数共轭*迪利克雷分布答案:0.33222.1无监督学习聚类,基于距离判断垃圾邮件,垃圾邮件举例图像分类rgb(0-255)2.2 重要机器学习三要素模型,策略,算法 2.3损失函数 L(Y,f(x)) (loss function) 0-1 损失函数 svm (...原创 2020-03-13 01:09:49 · 242 阅读 · 0 评论 -
No1.2 贝叶斯bayes 先验与 beta分布
01.贝叶斯:p(b|a)=p(a|b)*p(b)/p(a)02.β分布1)贝塔分布的期望值需要记住 μ=E(x)=α/(α+β) ,理解为概率的分布2)贝塔分布定义域为(0,1)图像关于期望对称,当击球次数增加,期望不断更新,对称轴移动81+100 是α219+200就是β使用β能让我们的概率更准确,因为有先验基础一个有趣的问题...原创 2020-03-12 19:36:07 · 705 阅读 · 0 评论 -
NO.1.1 机器学习初识与联合分布概率
为了解决任务T,设计一段程序,,从经验e中学习,达到性能p,当且仅当有了经验E后,经过评判P,程序在处理T时性能得到提升机器学习和人类类似,根据历史数据训练模型当做经验,有标签,代表有监督比如有结果红色绿色(回归分类)无标签,代表无监督(聚类基于距离,分裂)分类,回归,聚类,时序分析概念:特征:也有称维度,连续变量:(数值变量):尺寸身高体重 (一般采用回归)离散数据:季节...原创 2020-03-11 21:28:03 · 360 阅读 · 0 评论