加油吶-CSDN博客

原创记录‘No module named ‘notebook.notebookapp‘’导致jupyter打不开的解决方法

（电脑自带的是Python3.9，我自己装了3.10，咱也不懂为啥又出现了个Python3.8）最初是因为无法重命名文件的问题，更新了notebook，但是更新之后打不开了。（虽然和我以前的页面不太一样了，但是能用就行🤷🏻‍♀️）在终端输入 jupyter notebook 报错。

2024-03-23 13:37:28 801 1

原创机器学习相关问题

1、XGBOOST相比于GBDT有何不同？XGBOOST为什么快？XGBOOST如何支持并行？（1）GBDT只能用CART回归树，而XGBOOST可以用CART树（回归/分类）,还可以用用想LR之类的线性模型，相当于加入L1、L2正则项的LR或线性回归（2）列抽样，可以并行，不是树粒度上的，是特征粒度上的，block块，并行计算所有信息增益等信息（3）可处理多种特征，且对缺失值也不用进行处理（4）GBDT在残差梯度下降方向拟合，一阶导；XGBOOST泰勒展开至二阶导（5）近似直方图算法，高效

2023-07-26 22:14:27 307

原创集成学习概述

Bagging基本流程：通过上述自助采样，采出T个含m个训练样本的采样集，然后基于每个采样集训练出一个基学习器，在将这些基学习器进行组合。在对预测输出进行结合的时候，Bagging通常对分类任务使用简单投票法，对回归任务进行简单的平均法。但是如果投票个数一致，则最简单的做法是随机选择一个类别，当然也可以进一步考察学习器投票的置信度来确定最终的分类。分类任务采用简单投票法：即每个基学习器一票回归问题使用简单平均法：即每个基学习器的预测值取平均值基本分类器可以是决策树，逻辑回归等基分类器。

2023-07-26 20:07:56 1394

原创聚类算法概述

参数:n_clusters:开始的聚类中心数量方法estimator . fit(x) estimator . predict(x) estimator . fit_predict(x) # 相当于先调用fit(x),然后再调用predict(x)

2023-07-26 16:26:17 291

原创特征降维

用于训练的数据集特征对模型的性能有着极其重要的作用，如果训练数据中包含一些不重要的特征，可能导致模型的泛化性能不佳。降维--是指在某些限定条件下，降低特征个数。2、方法低方差过滤法相关系数法PCA（主成分分析法）降维法。

2023-07-25 19:09:43 387

原创支持向量机概述

支持向量机在深度学习技术出现之前，使用高斯核的支持向量机在很多分类问题上取得了很好的结果，支持向量机不仅用于分类，还可以用于回归问题。它具有泛化性能好，适合小样本和高维特征的优点。SVM 是 N 维空间的分类超平面，它将空间切分成两部分。对于二维空间，它是一条线，对于三维空间，它是一个平面，对于更高维空间，它是超平面。一般情况下，给定一组样本可以得到不止一个可行的线性分类器。那么，在多个可行的线性分类器中，什么样的分类器是最好的？

2023-07-25 15:57:07 630

原创朴素贝叶斯

数据集中包含大约 64620 封中文邮件, 其中垃圾邮件有 42854 封, 正常的邮件有 21766 封. 通过使用朴素贝叶斯算法实现对垃圾邮件的分类.

2023-07-25 12:15:52 152

原创决策树概述

决策树算法是一种监督学习算法，英文是Decision tree。决策树思想类似于if-else这样的逻辑判断，这其中的if表示的是条件，if之后的then就是一种选择或决策。程序设计中的条件分支结构就是if-then结构，最早的决策树就是利用这类结构分割数据的一种分类学习方法。决策树是一种树形结构树中每个内部节点表示一个特征上的判断，每个分支代表一个判断结果的输出最后每个叶节点代表一种分类结果是非参数学习算法可以解决分类（多分类）问题。

2023-07-24 12:55:05 949

原创分类评估指标

分类评估报告apiy_true：真实目标值y_pred：估计器预测目标值labels:指定类别对应的数字target_names：目标类别名称return：每个类别精确率与召回率'''AT&T数据，用户个人，通话，上网等信息数据充分利用数据预测客户的流失情况帮助挽留用户，保证用户基数和活跃程度CustomerID 客户IDGender 性别partneratt 配偶是否也为att用户dependents_att 家人是否也是att用户。

2023-07-21 21:03:49 366

原创逻辑回归概述

sklearn . linear_model . LogisticRegression(solver = 'liblinear' , penalty = ‘l2’ , C = 1.0) 1. solver 损失函数优化方法 : 1. 训练速度：liblinear 对小数据集场景训练速度更快，sag 和 saga 对大数据集更快一些。

2023-07-21 21:03:34 457

原创类别不平衡数据处理

在现实环境中，采集的数据（建模样本）往往是比例失衡的。比如：一个用于模型训练的数据集中，A 类样本占 95%，B 类样本占 5%。类别的不平衡会影响到模型的训练，所以，我们需要对这种情况进行处理。

2023-07-21 21:00:15 115

原创线性回归案例

快消企业，分析目的- 对商超门店的销售额进行预测- 量化自身所能控制的各种促销因素所能产生的效果- 对营销资源做出合理规划传统快消企业，数据特点- 聚合类的数据- 渠道众多，无法精准了解用户本例中，通过回归分析实现对各类因素投入产出比做出评估- 分析数据- 电视广告，线上，线下，门店内，微信渠道等促销投入和销售额之间的关系- 数据说明（以月为观测窗口）- Revenue 门店销售额- Reach 微信广告次数- Local_tv 本地电视广告投入。

2023-07-21 18:46:25 61

原创梯度下降法

梯度是微积分中一个很重要的概念- > 在微积分里面，对多元函数的参数求∂偏导数，把求得的各个参数的偏导数以向量的形式写出来，就是梯度。梯度的方向是函数在给定点上升最快的方向，那么梯度的反方向就是函数在给定点下降最快的方向。

2023-07-21 13:21:55 22

原创欠拟合、过拟合与正则化

过拟合：一个假设在训练数据上能够获得比其他假设更好的拟合，但是在测试数据集上却不能很好地拟合数据(体现在准确率下降)，此时认为这个假设出现了过拟合的现象。(模型过于复杂)欠拟合：一个假设在训练数据和测试数据上都不能获得更好的拟合，，此时认为这个假设出现了欠拟合的现象。(模型过于简单)过拟合和欠拟合的区别：欠拟合在训练集和测试集上的误差都较大过拟合在训练集上误差较小，而测试集上误差较大在解决回归过拟合中，我们选择正则化。

2023-07-21 12:58:13 40

原创线性回归法

线性回归(Linear regression)是利用对关系进行建模的一种分析方式。特点：只有一个自变量的情况称为单变量回归，多于一个自变量情况的叫做多元回归。通用公式hww1x1w2x2w3x3...bwTxb其中wxwbw1w2⋮x1x1x2⋮⎩⎨⎧1×x1x220×x1x222×x1x23。

2023-07-21 12:19:55 33

原创 K近邻算法KNN

本小节使用 scikit-learn 的 KNN API 来完成对鸢尾花数据集的预测.API介绍sklearn.metrics包中的accuracy_score方法: 传入预测结果和测试集的标签，返回预测准确率分类模型对象的 score 方法：传入测试集特征值，测试集目标值。

2023-07-20 16:15:35 55

原创机器学习概念

注意：模型的过拟合是无法彻底避免的，我们能做的只是缓解，或者说减小其风险，因为机器学习面临的是NP难问题（这列问题不存在有效精确解，必须寻求这类问题的有效近似算法求解），因此过拟合是不可避免的。在实际的任务中往往通过多种算法的选择，甚至对同一个算法，当使用不同参数配置时，也会产生不同的模型。举例：我们尝试通过基于规则的学习方式让计算机识别大象，下图中的大象千差万别，有的是实物，有的是雕塑，有的是画，我们无法通过创建一套规则的方式让计算机准确识别下面每一头大象，此时我们需要一种新的方法来解决这类问题。

2023-07-19 12:02:31 102

原创数理统计整体回顾

pandas的作用就是做模型训练之前的数据处理,

2023-07-15 21:41:32 26

原创 Pandas数据可视化

数据可视化是指直观展现数据，是数据处理过程的一部分常见的库和各自特点Matplotlib (功能强大，代码相对复杂)在执行各种任务方面非常高效，可以将可视化文件导出为所有常见格式（PDF, SVG, JPG, PNG, BMP和GIF）可以创建流行的可视化类型—折线图、散点图、直方图、条形图、误差图、饼图、箱型图以及更多其他类型的图，还支持3D绘图Pandas （使用简单，功能稍弱）基于 matplotlib ，是对matplotlib的二次封装。

2023-07-14 12:41:56 90

原创会员分析案例

pd.cut 返回的是category 类型, 类别型, 为了方便拼接三个维度的结果, 我们做类型的转换, 转换成字符串。read_sql 是对 pd.read_sql_table / pd.reade_sql_query的封装。铂金钻石比例都比较小, 如果这两部分挨着显示, 文字会重叠, 需要调整一下绘图各部分的顺序。‘%.2f%%’ 保留2位小数 ‘%.1f%%’ 保留1位小数。店铺信息表中包含了店铺信息和地区信息的对应关系。F 消费的次数 (最近半年/最近一年内)

2023-07-13 21:55:12 42

原创自定义函数和Pandas分组操作

pandas 自带的API不能满足需求的时候, 可以使用自定义函数来处理, apply 就是pandas提供的一种方便我们调用自定函数的API如果没有apply 我们想对一列数据/一行数据做相同的处理时, 除了创建一个自定义函数之外还需要自己写for循环进行调用, 使用了apply这个API 就不需要for循环遍历。

2023-07-11 17:08:10 84

原创 Pandas简单数据分析

复合索引取值的代码写起来比较麻烦, 可以通过reset_index 来将复合索引变成普通的列, 再做后续的处理。pandas通过pd.isna()/pd.isnull()/pd.notnull() 判断一个值是不是缺失值。计算df中每一列缺失值的情况 titanic_train.isnull().sum() 每一列多少缺失值。如果分组字段传入的是列表, 返回的是MultiIndex 复合索引, (索引是嵌套的)数据有时间先后顺序的数据，填充时序数据时, 需要考虑缺失值前面/后面的有真实值的数据。

2023-07-09 23:02:06 55

原创 Pandas数据结构

DataFrame 的每一行数据都可以看成一个 Series 结构，只不过，DataFrame 为这些行中每个数据值增加了一个列标签。的数据结构，既有行标签（index），又有列标签（columns），它也被称异构数据表，所谓异构，指的是表格中每列的数据类型可以不同，比如可以是字符串、整型或者浮点型等。如果保存的对象是计算的中间结果，或者保存的对象以后会在Python中复用，可把对象保存为pickle文件。csv(逗号分隔值）是很灵活的一种数据存储格式，，是数据协作和共享的首选格式。

2023-07-05 19:16:02 35

原创 Numpy简单笔记

Pandas功能和Mysql 比较类似除了数据处理之外还可以做可视化Numpy科学计算库Pandas , Sklearn 基于Numpy, 底层的计算都是调用的Numpy的实现底层基于C实现的, 速度比较快MatplotlibPython可视化的库, 用的最多的Pandas 的可视化的功能调用的就是Matplotlib的Seaborn数据可视化的库对Matplotlib的封装功能比Matplotlib更丰富工具会使用Jupyter Lab笔记本形式的, 实现图文混排。

2023-07-04 20:11:23 26

原创 window窗口函数

接下来的课程中我们来介绍窗口函数window functionsMYSQL 8.0 之后，加入了窗口函数功能，简化了数据分析工作中查询语句的书写在没有窗口函数之前，我们需要通过定义临时变量和大量的子查询才能完成的工作，使用窗口函数实现起来更加简洁高效窗口函数是数据分析工作中必须掌握的工具，在SQL笔试中也是高频考点什么是窗口函数?为什么说窗口函数可以使复杂的查询变得更加简单方便？窗口函数是类似于可以返回聚合值的函数，例如SUM()，COUNT()，MAX()。

2023-07-03 21:54:24 150

原创 MySQL数据库高级

设计关系数据库时，遵从不同的规范要求，设计出合理的关系型数据库，这些不同的规范要求被称为不同的范式，各种范式呈递次规范，越高的范式数据库冗余越小。数据冗余是指数据之间的重复，也可以说是同一数据存储在不同数据文件中的现象根据数据库冗余的大小,目前关系型数据库有六种范式,各种范式呈递次规范，越高的范式数据库冗余越小。六种范式：第一范式（1NF）第二范式（2NF）第三范式（3NF）巴斯-科德范式（BCNF）第四范式 ( 4NF）第五范式（5NF，又称完美范式）一般遵循前三种范式即可第一范式（1NF）: 强调的是

2023-07-03 15:53:47 22

原创 MySQL查询操作

分组查询就是将查询结果按照指定字段进行分组，字段中数据相等的分为一组。分组字段必须出现在select后面GROUP BY 列名 [HAVING 条件表达式] [WITH ROLLUP]列名: 是指按照指定字段的值进行分组。HAVING 条件表达式: 用来过滤分组后的数据。WITH ROLLUP：回溯统计，在所有记录的最后加上一条记录，显示select查询时聚合函数的统计和计算结果连接查询可以实现多个表的查询，当查询的字段数据来自不同的表就可以使用连接查询来完成。内连接查询左外连接查询。

2023-07-02 17:27:33 101

原创 MySQL增、删改操作

结构化查询语言(Structured Query Language)简称SQL，是关系型数据库管理系统都需要遵循的规范，是数据库认识的语句。不同的数据库生产厂商都支持SQL语句，但都有特有内容。普通话：各数据库厂商都遵循的ISO标准。方言：数据库特有的关键字。

2023-07-02 12:13:25 112 1

原创 MySQL数据库基础

数据库就是存储数据的仓库，其本质是一个文件系统，按照特定的格式将数据存储起来，用户可以对数据库中的数据进行增加，修改，删除及查询操作。随着互联网的高速发展，大量的数据在不断的产生，伴随而来的是如何高效安全的存储数据和处理数据，而这一问题成为了信息时代的一个非常大的问题，而使用数据库可以高效的有条理的储存数据。可以结构化存储大量的数据；可以有效的保持数据的一致性、完整性；读写效率极高。数据库介绍MySQL开源免费的数据库，中型的数据库.已经被Oracle收购了.MySQL6.x版本也开始收费。

2023-07-02 12:10:19 113 1

原创 Linux系统高级

Linux操作系统是多任务多用户操作系统，每当我们使用用户名登录操作系统时，Linux都会对该用户进行认证、授权审计等操作。操作系统为了识别每个用户，会给每个用户定义一个ID，就是UID。为了方便用户管理，Linux允许把多个用户放入一个用户组，也有一个ID，GID。在Linux操作系统中，root的权限是最高的，相当于windows的administrator，拥有最高权限，能执行任何命令和操作，而其他用户都是普通用户。Linux对文件创建者（所属用户），所属用户组，其他用户都赋予不同的权限。

2023-06-28 21:05:48 118 1

原创 Linux操作系统

计算机一般分为个人计算机（笔记、台式机）与企业级服务器（1U、2U、机柜、塔式、刀片）两种形式。操作系统（Operating System，简称OS）是管理和控制计算机硬件与软件资源的计算机程序，是直接运行在“裸机”上的最基本的系统软件，任何其他软件都必须在操作系统的支持下才能运行。Linux创始人——林纳斯 · 托瓦兹Linux 诞生于1991年，作者上大学期间实现的Linux的特点：开源、免费、拥有最为庞大的源码贡献者Linux的吉祥物是企鹅目录作用/bin二进制命令所在的目录(普通命令。

2023-06-27 14:01:13 79

原创 Python简单爬虫实践案例

又被称为网页蜘蛛，网络机器人，是一种按照一定的规则，自动地抓取网络信息的程序或者脚本，另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。简单来讲，爬虫就是一个探测机器，它的基本操作就是模拟人的行为去各个网站溜达，点点按钮，查查数据，或者把看到的信息背回来. 就像一只虫子在一幢楼里不知疲倦地爬来爬去.你可以简单地想象每个爬虫都是你的「分身」。就像孙悟空拔了一撮汗毛，吹出一堆猴子一样****其实就是利用了这种爬虫技术, 每天放出无数爬虫到各个网站，把他们的信息抓回来，然后化好淡妆排着小队等你来检索。

2023-06-25 21:05:56 545

空空如也

空空如也