学习笔记
文章平均质量分 51
学习笔记/看书笔记/网课笔记
J_caicaicai
这个作者很懒,什么都没留下…
展开
-
【matplotlib】02-艺术画笔见乾坤
概述primitives 和 container的关系matplotlib标准使用流程# step 1 # 用matplotlib.pyplot.figure()创建了一个Figure实例fig = plt.figure()# step 2# 用figure实例创建了一个两行一列的绘图区,并同时在第一个位置创建了一个subplotax = fig.add_subplot(2, 1, 1) # 2 rows, 1 col, 1st plot# step 3# 用 Axes 实例的原创 2021-09-19 23:55:40 · 172 阅读 · 0 评论 -
【Java基础知识】initialize array
上周尝试换Java刷力扣,想说边做题边学基础语法,发现,唔这种方法貌似不太适合Java...今日初学者报错:错误: 不兼容的类型: String[]无法转换为String代码是这样的public class MyForInitStringArray { public static void main(String[] args) { String[] a1={"one", "two", "three"}; //这里一开始写成 //原创 2021-08-11 12:39:55 · 266 阅读 · 0 评论 -
【Java基础知识】进度非常之慢,这样可不行啊小菜
① 写python的习惯总是改不过来,class定义完了就打()括号了,应该是 { } 呀报错信息:错误: 需要 class、interface、enum 或 record② 正常for statement后面是要 {} 把内容包起来的,foreach 貌似不用?for (char c: "Janet is a wonderful coder".toCharArray()) System.out.print(c+" ");float f[]=new float[10];for (float原创 2021-08-09 19:40:32 · 87 阅读 · 0 评论 -
【Django】task03 - 从零开始搭建个人博客网站
raise ImproperlyConfigured(django.core.exceptions.ImproperlyConfigured: Error loading MySQLdb module.Did you install mysqlclient?在config目录下的 __init__.py 里面添加import pymysqlpymysql.install_as_MySQLdb()然后接着报错raise errorclass(errno, errval)django.db原创 2021-06-28 00:01:15 · 141 阅读 · 2 评论 -
【Django】task01 - 基础知识篇
创建项目的虚拟环境 python3 -m venv配置django的环境哇啦js<script></script>放在header里和放在body里的区别:放在header里,页面一打开就开始加载放在body里,页面拉到后面才会加载使用requests和bs4实现爬虫...原创 2021-06-16 22:44:46 · 99 阅读 · 0 评论 -
【集成学习】15 蒸汽量预测
import warningswarnings.filterwarnings("ignore")import matplotlib.pyplot as pltimport seaborn as sns# 模型import pandas as pdimport numpy as npfrom scipy import statsfrom sklearn.model_selection import train_test_splitfrom sklearn.model_selection原创 2021-05-23 22:41:29 · 96 阅读 · 0 评论 -
【集成学习】14 幸福感预测
太强了太强了特征工程神神奇奇,数据增广之后还要删一删特征挑出最重要的49个特征,做一组样本集one-hot之后,又得到一组样本集哇偶,原来特征工程是这样的,可以重新构建三个数据集,学到了学到了初始的263个特征最重要的49个特征onehot之后的383个特征特征建模对263维搞事情lightGBMXGBoostRandomForestRegressorGradientBoostingRegressorExtr...原创 2021-05-18 23:07:10 · 150 阅读 · 1 评论 -
【集成学习】13 Stacking集成学习算法
Blending在集成的过程中只会用到validation set的数据,对数据实际上是一个很大的浪费。(stacking就是对这个问题的改进?)Blending vs. StackingBlending 优点:比stacking简单(不用k-fold cross validation来获得stacker feature)Blending 缺点使用了很少的数据(划分hold-out作为测试集,并非cv)blender可能会过拟合(其实大概率是第一点导致的)stacking使用多次的CV会比较原创 2021-05-13 22:53:31 · 233 阅读 · 0 评论 -
【集成学习】12 Blending集成学习算法
不知不觉来到集成学习-下啦!撒花本章 我们继续讨论集成学习方法的最后一个成员 – stacking,这个集成方法在比赛中常被称为 懒人 算法,因为它不要花费过多时间的调参就可以得到一个效果不错的算法。also,这种算法也比前两种算法(bagging & boosting)容易理解的多,因为stacking不需要理解太多的理论,只需要在实际中加以运用即可。Blending集成学习方式:将数据划分为training set和testing set,其中training set需要再次划分为 tr原创 2021-05-11 22:43:19 · 181 阅读 · 0 评论 -
【集成学习】11 XGBoost 算法分析与案例调参
XGBoost – 陈天奇等人开发的一个开源ML项目,高效地实现了GBDT算法并进行了算法和工程上的许多改进,被广泛应用在Kaggle竞赛 & 其他许多ML竞赛中取得了不错的成绩。XGBoost本质还是一个GBDT,但是力争把速度和效率发挥到了极致,所以叫X(Extreme)GBoosted。XGBoost是一个优化的分布式梯度增强库,旨在实现高效,灵活和便捷。它在Gradient Boosting框架下实现ML。XGBoost提供了并行树提升(也称GBDT,GBM),可以快速准确地解决许多原创 2021-04-26 22:46:04 · 192 阅读 · 0 评论 -
【集成学习】10 向前分布算法与梯度提升决策树
向前分布算法Adaboost的算法内容:我们需要通过计算M个基分类器,每个人类器的错误率、样本权重以及模型权重。aka,Adaboost每次学习单一分类器以及单一分类器的参数(权重)。抽象出Adaboost算法的整体框架逻辑,构建集成学习的一个非常重要的框架 – 前向分布算法,有了这个框架,我们不仅可以解决分类问题,也可以解决回归问题。加法模型在Adaboost模型中,我们把每个基分类器合成一个复杂分类器的方法是 – 每个基本分类器的加权和,即 f(x)=∑m=1Mβmb(x;γm)f(x)=\原创 2021-04-23 22:23:47 · 199 阅读 · 0 评论 -
【集成学习】9 Boosting的思路与Adaboost算法
学习资料来自伟大又神秘的组织datawhale,check the link!复习一下Bagging:通过Boostrap的方式对全样本数据集进行抽样得到抽样子集,对不同的子集使用同一种基本模型进行拟合,然后投票得出最终的预测。Bagging主要通过降低方差的方式减少预测误差。Bagging vs BoostingBoosting思想与Bagging截然不同Boosting方法是使用同一组数据集进行反复学习,得到一系列简单模型,然后组合这些模型构成一个预测性能十分强大的ML模型。Boo原创 2021-04-20 22:43:12 · 92 阅读 · 0 评论 -
【集成学习】8 Bagging 的原理和案例分析
Bagging的思路与voting不同,Bagging不仅集成模型最后的预测结果,同时采用一定策略来影响基模型训练,保证基模型可以服从一定的假设。哇偶bagging的原理分析bagging的核心 --> 来自于 自助采样(bootstrap)这一概念aka 有放回的从dataset进行采样aka 同样的一个样本可能被多次进行采样自助采样例子:我们希望估计全国所有人口年龄的平均值1、在全国所有人口中随机抽取不同的集合(集合可能存在交集2、计算每个集合的平均值3、avg(所有聚原创 2021-04-17 21:56:42 · 213 阅读 · 0 评论 -
【docker】啊嗷嗷暗暗啊
what situation docker is dealing with?项目在我电脑上明明运行的很好呀!怎么在你这不行了呢?我这是用python 3.6写的,你电脑是python 2.7应该运行不了。项目的一些依赖包需要科学上网才能下载,你那没有的话赶紧下载一下才能运行。论文的代码已经公开到github上了,但是因为自己电脑环境和他的不一样,项目在自己电脑上死活跑不起来。参加一些比赛,最后需要提交docker文件为最终结果。通过本次docker的组队学习,我们希望你能学到以下几个方面的能转载 2021-04-14 22:45:29 · 97 阅读 · 0 评论 -
【集成学习】7 投票法的原理和案例分析
Voting投票法的思路voting – 集成学习常用技巧可以提高模型的泛化能力,减少模型的错误率。航空航天领域,每个零件发出的电信号都对航空器的成功发射起到重要作用二进制信号,不小心传输发生了错误 打灭常用的纠错方法 – 重复多次发送数据,少数服从多数(hadoop也都很多vote场景对于regression,投票法最终的预测结果是多个其他回归模型预测结果的平均值对于classification,硬投票法的预测结果是多个模型预测结果中出现次数最多的类别软投票法对各类预测结果的原创 2021-04-14 22:28:35 · 236 阅读 · 0 评论 -
【集成学习】6 分类问题的评估及超参数调优
调参使用网格搜索进行超参数调优随机网格搜索练习大家结合sklearn的fetch_lfw_people数据集,进行一次实 战。fetch_lfw_people数据集是一个图像数据集。案例的内容是对图像进行识别并分类。...原创 2021-03-29 20:56:04 · 114 阅读 · 0 评论 -
【集成学习】5 机器学习中基本的分类模型
来吧鸢尾花~选择度量模型性能的指标真阳性TP:预测值和真实值都为正例;真阴性TN:预测值与真实值都为正例;假阳性FP:预测值为正,实际值为负;假阴性FN:预测值为负,实际值为正;分类模型的指标准确率分类正确的样本数占总样本的比例ACC=TP+TNFP+FN+TP+TNACC = \frac{TP+TN}{FP+FN+TP+TN}ACC=FP+FN+TP+TNTP+TN精度预测为正且分类正确的样本占预测值为正的比例PRE=TPTP+FPPRE = \frac{TP}{TP原创 2021-03-27 23:47:51 · 544 阅读 · 0 评论 -
【集成学习】4 对模型超参数进行调优(调参)
参数 vs 超参数参数 – 模型内部的配置变量,其值可以根据数据进行估计进行预测时需要参数它参数定义了可使用的模型参数是从数据估计获取的参数通常不由coder手动设置参数通常被保存为学习模型的一部分参数是ML算法的关键,它们通常由过去的训练数据中总结得出超参数 – 模型外部的配置,其值无法从数据中估计超参数通常用于帮助估计模型参数超参数通常由人工指定超参数通常可以使用启发式设置超参数经常被调整为给定的预测建模问题网格搜索 GridSearchCV()举个 栗子????原创 2021-03-24 21:36:51 · 340 阅读 · 0 评论 -
【集成学习】3 优化基础模型
在regression问题中使用训练集估计模型的参数的原则一般是使得我们的loss function在训练集达到最小值其实在实际问题中我们是可以让loss func在训练集最小化为 0 (啊咧这不就过拟合了我们并不希望在训练集上表现优异,而是希望在测试集上表现优异训练MSE vs 测试MSE训练MSE:使用训练集的数据计算的MSE测试MSE:使用测试集的数据计算的MSE我们关心的是模型面对未知的样本集,我们的目标是使得我们创建的模型在测试集上的测试误差最小。如何选择一个测试误差最小的原创 2021-03-22 22:39:32 · 780 阅读 · 0 评论 -
【集成学习】2 基本的回归模型
一个完整的机器学习项目分为以下步骤:明确项目任务:回归/分类收集数据集并选择合适的特征选择度量模型性能的指标选择具体的模型并进行训练以优化模型评估模型的性能并调参2.1 使用sklearn构建完整的回归项目1 收集数据集并选择合适的特征特征解释:CRIM:各城镇的人均犯罪率ZN:规划地段超过25,000平方英尺的住宅用地比例INDUS:城镇非零售商业用地比例CHAS:是否在查尔斯河边(=1是)NOX:一氧化氮浓度(/千万分之一)RM:每个住宅的平均房间数AGE:1940年原创 2021-03-18 22:39:04 · 260 阅读 · 0 评论 -
【集成学习】1 机器学习的三大主要任务
1. 导论机器学习利用数学模型来理解数据,发现数据中的规律,用作数据的分析和预测数据通常由一组向量组成,这组向量中的每个向量都是一个样本xi来表示一个样本,i=1,2,3,…, n,共n个样本每个样本xi = {xi1, xi2, …, xip, y} 共p+1个维度前p个维度 – p个特征y – 因变量根据数据是否有因变量,分为:有监督学习给定某些特征去估计因变量aka 因变量存在的时候,我们称这个机器学习任务为有监督学习无监督学习给定某些特征但不给定因变原创 2021-03-15 23:02:16 · 135 阅读 · 0 评论 -
【异常检测】高维数据的异常检测
高维数据的异常检测Intro两种常见集成方法Feature BaggingIsolation Forests练习使用PyOD库生成toy example并调用feature bagging使用PyOD库生成toy example并调用Isolation Forests原创 2021-01-24 23:16:04 · 107 阅读 · 0 评论 -
【异常检测】基于相似度的方法
基于相似度的方法Intro基于距离的度量基于密度的度量原创 2021-01-21 22:38:22 · 83 阅读 · 0 评论 -
【异常检测】线性模型
线性模型Intro数据可视化,探索性分析线性回归主成分分析回归分析的局限性总结原创 2021-01-18 22:52:13 · 73 阅读 · 0 评论 -
【异常检测】基于统计学的方法
基于统计学的方法Intro参数方法非参数方法HBOS总结原创 2021-01-15 23:41:41 · 135 阅读 · 0 评论 -
【异常检测】异常检测intro
课程材料:异常检测-1异常检测异常检测常用方法传统方法集成方法异常检测常用开源库原创 2021-01-12 22:39:08 · 85 阅读 · 0 评论 -
datewhale_pandas_task11综合练习一
【任务一】企业收入的多样性其中 p(xi) 是企业该年某产业收入额占该年所有产业总收入的比重。在company.csv中存有需要计算的企业和年份,在company_data.csv中存有企业、各类收入额和收入年份的信息。现请利用后一张表中的数据,在前一张表中增加一列表示该公司该年份的收入熵指标 I 。【任务二】组队学习信息表的变换【题目描述】请把组队学习的队伍信息表变换为如下形态,其中“是否队长”一列取1表示队长,否则为0df = pd.read_excel('data/task11/原创 2021-01-01 22:09:33 · 98 阅读 · 0 评论