自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(47)
  • 收藏
  • 关注

原创 记录‘No module named ‘notebook.notebookapp‘’导致jupyter打不开的解决方法

(电脑自带的是Python3.9,我自己装了3.10,咱也不懂为啥又出现了个Python3.8)最初是因为无法重命名文件的问题,更新了notebook,但是更新之后打不开了。(虽然和我以前的页面不太一样了,但是能用就行🤷🏻‍♀️)在终端输入 jupyter notebook 报错。

2024-03-23 13:37:28 801 1

原创 机器学习相关问题

1、XGBOOST相比于GBDT有何不同?XGBOOST为什么快?XGBOOST如何支持并行?(1)GBDT只能用CART回归树,而XGBOOST可以用CART树(回归/分类),还可以用用想LR之类的线性模型,相当于加入L1、L2正则项的LR或线性回归(2)列抽样,可以并行,不是树粒度上的,是特征粒度上的,block块,并行计算所有信息增益等信息(3)可处理多种特征,且对缺失值也不用进行处理(4)GBDT在残差梯度下降方向拟合,一阶导;XGBOOST泰勒展开至二阶导(5)近似直方图算法,高效

2023-07-26 22:14:27 307

原创 集成学习概述

Bagging基本流程:通过上述自助采样,采出T个含m个训练样本的采样集,然后基于每个采样集训练出一个基学习器,在将这些基学习器进行组合。在对预测输出进行结合的时候,Bagging通常对分类任务使用简单投票法,对回归任务进行简单的平均法。但是如果投票个数一致,则最简单的做法是随机选择一个类别,当然也可以进一步考察学习器投票的置信度来确定最终的分类。分类任务采用简单投票法:即每个基学习器一票回归问题使用简单平均法:即每个基学习器的预测值取平均值基本分类器可以是决策树,逻辑回归等基分类器。

2023-07-26 20:07:56 1394

原创 聚类算法概述

参数:n_clusters:开始的聚类中心数量方法estimator . fit(x) estimator . predict(x) estimator . fit_predict(x) # 相当于先调用fit(x),然后再调用predict(x)

2023-07-26 16:26:17 291

原创 特征 降维

用于训练的数据集特征对模型的性能有着极其重要的作用,如果训练数据中包含一些不重要的特征,可能导致模型的泛化性能不佳。降维--是指在某些限定条件下,降低特征个数。2、方法低方差过滤法相关系数法PCA(主成分分析法)降维法。

2023-07-25 19:09:43 387

原创 支持向量机概述

支持向量机在深度学习技术出现之前,使用高斯核的支持向量机在很多分类问题上取得了很好的结果,支持向量机不仅用于分类,还可以用于回归问题。它具有泛化性能好,适合小样本和高维特征的优点。SVM 是 N 维空间的分类超平面,它将空间切分成两部分。对于二维空间,它是一条线,对于三维空间,它是一个平面,对于更高维空间,它是超平面。一般情况下,给定一组样本可以得到不止一个可行的线性分类器。那么,在多个可行的线性分类器中,什么样的分类器是最好的?

2023-07-25 15:57:07 630

原创 朴素贝叶斯

数据集中包含大约 64620 封中文邮件, 其中垃圾邮件有 42854 封, 正常的邮件有 21766 封. 通过使用朴素贝叶斯算法实现对垃圾邮件的分类.

2023-07-25 12:15:52 152

原创 决策树概述

决策树算法是一种监督学习算法,英文是Decision tree。决策树思想类似于if-else这样的逻辑判断,这其中的if表示的是条件,if之后的then就是一种选择或决策。程序设计中的条件分支结构就是if-then结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法。决策树是一种树形结构树中每个内部节点表示一个特征上的判断,每个分支代表一个判断结果的输出最后每个叶节点代表一种分类结果是非参数学习算法可以解决分类(多分类)问题。

2023-07-24 12:55:05 949

原创 分类评估指标

分类评估报告apiy_true:真实目标值y_pred:估计器预测目标值labels:指定类别对应的数字target_names:目标类别名称return:每个类别精确率与召回率'''AT&T数据,用户个人,通话,上网等信息数据充分利用数据预测客户的流失情况帮助挽留用户,保证用户基数和活跃程度CustomerID 客户IDGender 性别partneratt 配偶是否也为att用户dependents_att 家人是否也是att用户。

2023-07-21 21:03:49 366

原创 逻辑回归概述

sklearn . linear_model . LogisticRegression(solver = 'liblinear' , penalty = ‘l2’ , C = 1.0) 1. solver 损失函数优化方法 : 1. 训练速度:liblinear 对小数据集场景训练速度更快,sag 和 saga 对大数据集更快一些。

2023-07-21 21:03:34 457

原创 类别不平衡数据处理

在现实环境中,采集的数据(建模样本)往往是比例失衡的。比如:一个用于模型训练的数据集中,A 类样本占 95%,B 类样本占 5%。类别的不平衡会影响到模型的训练,所以,我们需要对这种情况进行处理。

2023-07-21 21:00:15 115

原创 线性回归案例

快消企业,分析目的- 对商超门店的销售额进行预测- 量化自身所能控制的各种促销因素所能产生的效果- 对营销资源做出合理规划传统快消企业,数据特点- 聚合类的数据- 渠道众多,无法精准了解用户本例中,通过回归分析实现对各类因素投入产出比做出评估- 分析数据- 电视广告,线上,线下,门店内,微信渠道等促销投入和销售额之间的关系- 数据说明 (以月为观测窗口)- Revenue 门店销售额- Reach 微信广告次数- Local_tv 本地电视广告投入。

2023-07-21 18:46:25 61

原创 梯度下降法

梯度是微积分中一个很重要的概念- > 在微积分里面,对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度。梯度的方向是函数在给定点上升最快的方向,那么梯度的反方向就是函数在给定点下降最快的方向。

2023-07-21 13:21:55 22

原创 欠拟合、过拟合与正则化

过拟合:一个假设在训练数据上能够获得比其他假设更好的拟合, 但是在测试数据集上却不能很好地拟合数据(体现在准确率下降),此时认为这个假设出现了过拟合的现象。(模型过于复杂)欠拟合:一个假设在训练数据和测试数据上都不能获得更好的拟合,,此时认为这个假设出现了欠拟合的现象。(模型过于简单)过拟合和欠拟合的区别:欠拟合在训练集和测试集上的误差都较大过拟合在训练集上误差较小,而测试集上误差较大在解决回归过拟合中,我们选择正则化。

2023-07-21 12:58:13 40

原创 线性回归法

线性回归(Linear regression)是利用对关系进行建模的一种分析方式。特点:只有一个自变量的情况称为单变量回归,多于一个自变量情况的叫做多元回归。通用公式hww1​x1​w2​x2​w3​x3​...bwTxb其中wxw​bw1​w2​⋮​​x​1x1​x2​⋮​​⎩⎨⎧​1×x1​x2​20×x1​x2​22×x1​x2​3。

2023-07-21 12:19:55 33

原创 K近邻算法KNN

本小节使用 scikit-learn 的 KNN API 来完成对鸢尾花数据集的预测.API介绍sklearn.metrics包中的accuracy_score方法: 传入预测结果和测试集的标签, 返回预测准确率分类模型对象的 score 方法:传入测试集特征值,测试集目标值。

2023-07-20 16:15:35 55

原创 机器学习概念

注意:模型的过拟合是无法彻底避免的,我们能做的只是缓解,或者说减小其风险,因为机器学习面临的是NP难问题(这列问题不存在有效精确解,必须寻求这类问题的有效近似算法求解),因此过拟合是不可避免的。在实际的任务中往往通过多种算法的选择,甚至对同一个算法,当使用不同参数配置时,也会产生不同的模型。举例:我们尝试通过基于规则的学习方式让计算机识别大象,下图中的大象千差万别, 有的是实物,有的是雕塑,有的是画,我们无法通过创建一套规则的方式让计算机准确识别下面每一头大象, 此时我们需要一种新的方法来解决这类问题。

2023-07-19 12:02:31 102

原创 数理统计整体回顾

pandas的作用 就是做模型训练之前的数据处理,

2023-07-15 21:41:32 26

原创 Pandas数据可视化

数据可视化是指直观展现数据,是数据处理过程的一部分常见的库和各自特点Matplotlib (功能强大,代码相对复杂)在执行各种任务方面非常高效,可以将可视化文件导出为所有常见格式(PDF, SVG, JPG, PNG, BMP和GIF)可以创建流行的可视化类型—折线图、散点图、直方图、条形图、误差图、饼图、箱型图以及更多其他类型的图,还支持3D绘图Pandas (使用简单,功能稍弱)基于 matplotlib ,是对matplotlib的二次封装。

2023-07-14 12:41:56 90

原创 会员分析案例

pd.cut 返回的是category 类型, 类别型, 为了方便拼接三个维度的结果, 我们做类型的转换, 转换成字符串。read_sql 是对 pd.read_sql_table / pd.reade_sql_query的封装。铂金 钻石 比例都比较小, 如果这两部分挨着显示, 文字会重叠, 需要调整一下绘图各部分的顺序。‘%.2f%%’ 保留2位小数 ‘%.1f%%’ 保留1位小数。店铺信息表 中包含了店铺信息和地区信息的对应关系。F 消费的次数 (最近半年/最近一年内)

2023-07-13 21:55:12 42

原创 自定义函数和Pandas分组操作

pandas 自带的API不能满足需求的时候, 可以使用自定义函数来处理, apply 就是pandas提供的一种方便我们调用自定函数的API如果没有apply 我们想对一列数据/一行数据做相同的处理时, 除了创建一个自定义函数之外还需要自己写for循环进行调用, 使用了apply这个API 就不需要for循环遍历。

2023-07-11 17:08:10 84

原创 Pandas简单数据分析

复合索引取值的代码写起来比较麻烦, 可以通过reset_index 来将复合索引变成普通的列, 再做后续的处理。pandas通过pd.isna()/pd.isnull()/pd.notnull() 判断一个值是不是缺失值。计算df中每一列缺失值的情况 titanic_train.isnull().sum() 每一列多少缺失值。如果分组字段传入的是列表, 返回的是MultiIndex 复合索引, (索引是嵌套的)数据有时间先后顺序的数据,填充时序数据时, 需要考虑缺失值前面/后面的有真实值的数据。

2023-07-09 23:02:06 55

原创 Pandas数据结构

DataFrame 的每一行数据都可以看成一个 Series 结构,只不过,DataFrame 为这些行中每个数据值增加了一个列标签。的数据结构,既有行标签(index),又有列标签(columns),它也被称异构数据表,所谓异构,指的是表格中每列的数据类型可以不同,比如可以是字符串、整型或者浮点型等。如果保存的对象是计算的中间结果,或者保存的对象以后会在Python中复用,可把对象保存为pickle文件。csv(逗号分隔值)是很灵活的一种数据存储格式,,是数据协作和共享的首选格式。

2023-07-05 19:16:02 35

原创 Numpy简单笔记

Pandas功能和Mysql 比较类似除了数据处理之外还可以做可视化Numpy科学计算库Pandas , Sklearn 基于Numpy, 底层的计算都是调用的Numpy的实现底层基于C实现的, 速度比较快MatplotlibPython可视化的库, 用的最多的Pandas 的可视化的功能调用的就是Matplotlib的Seaborn数据可视化的库对Matplotlib的封装功能比Matplotlib更丰富工具会使用Jupyter Lab笔记本形式的, 实现图文混排。

2023-07-04 20:11:23 26

原创 window窗口函数

接下来的课程中我们来介绍窗口函数window functionsMYSQL 8.0 之后,加入了窗口函数功能,简化了数据分析工作中查询语句的书写在没有窗口函数之前,我们需要通过定义临时变量和大量的子查询才能完成的工作,使用窗口函数实现起来更加简洁高效窗口函数是数据分析工作中必须掌握的工具,在SQL笔试中也是高频考点什么是窗口函数?为什么说窗口函数可以使复杂的查询变得更加简单方便?窗口函数是类似于可以返回聚合值的函数,例如SUM(),COUNT(),MAX()。

2023-07-03 21:54:24 150

原创 MySQL数据库高级

设计关系数据库时,遵从不同的规范要求,设计出合理的关系型数据库,这些不同的规范要求被称为不同的范式,各种范式呈递次规范,越高的范式数据库冗余越小。数据冗余是指数据之间的重复,也可以说是同一数据存储在不同数据文件中的现象根据数据库冗余的大小,目前关系型数据库有六种范式,各种范式呈递次规范,越高的范式数据库冗余越小。六种范式:第一范式(1NF)第二范式(2NF)第三范式(3NF)巴斯-科德范式(BCNF)第四范式 ( 4NF)第五范式(5NF,又称完美范式)一般遵循 前三种范式即可第一范式(1NF): 强调的是

2023-07-03 15:53:47 22

原创 MySQL查询操作

分组查询就是将查询结果按照指定字段进行分组,字段中数据相等的分为一组。分组字段必须出现在select后面GROUP BY 列名 [HAVING 条件表达式] [WITH ROLLUP]列名: 是指按照指定字段的值进行分组。HAVING 条件表达式: 用来过滤分组后的数据。WITH ROLLUP:回溯统计,在所有记录的最后加上一条记录,显示select查询时聚合函数的统计和计算结果连接查询可以实现多个表的查询,当查询的字段数据来自不同的表就可以使用连接查询来完成。内连接查询左外连接查询。

2023-07-02 17:27:33 101

原创 MySQL增、删改操作

结构化查询语言(Structured Query Language)简称SQL,是关系型数据库管理系统都需要遵循的规范,是数据库认识的语句。不同的数据库生产厂商都支持SQL语句,但都有特有内容。普通话:各数据库厂商都遵循的ISO标准。方言:数据库特有的关键字。

2023-07-02 12:13:25 112 1

原创 MySQL数据库基础

数据库就是存储数据的仓库,其本质是一个文件系统,按照特定的格式将数据存储起来,用户可以对数据库中的数据进行增加,修改,删除及查询操作。随着互联网的高速发展,大量的数据在不断的产生,伴随而来的是如何高效安全的存储数据和处理数据,而这一问题成为了信息时代的一个非常大的问题,而使用数据库可以高效的有条理的储存数据。可以结构化存储大量的数据;可以有效的保持数据的一致性、完整性;读写效率极高。数据库介绍MySQL开源免费的数据库,中型的数据库.已经被Oracle收购了.MySQL6.x版本也开始收费。

2023-07-02 12:10:19 113 1

原创 Linux系统高级

Linux操作系统是多任务多用户操作系统,每当我们使用用户名登录操作系统时,Linux都会对该用户进行认证、授权审计等操作。操作系统为了识别每个用户,会给每个用户定义一个ID,就是UID。为了方便用户管理,Linux允许把多个用户放入一个用户组,也有一个ID,GID。在Linux操作系统中,root的权限是最高的,相当于windows的administrator,拥有最高权限,能执行任何命令和操作,而其他用户都是普通用户。Linux对文件创建者(所属用户),所属用户组,其他用户都赋予不同的权限。

2023-06-28 21:05:48 118 1

原创 Linux操作系统

计算机一般分为个人计算机(笔记、台式机)与 企业级服务器(1U、2U、机柜、塔式、刀片)两种形式。操作系统(Operating System,简称OS)是管理和控制计算机硬件与软件资源的计算机程序,是直接运行在“裸机”上的最基本的系统软件,任何其他软件都必须在操作系统的支持下才能运行。Linux创始人——林纳斯 · 托瓦兹Linux 诞生于1991年,作者上大学期间实现的Linux的特点:开源、免费、拥有最为庞大的源码贡献者Linux的吉祥物是企鹅目录作用/bin二进制命令所在的目录(普通命令。

2023-06-27 14:01:13 79

原创 Python简单爬虫实践案例

又被称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取网络信息的程序或者脚本,另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。简单来讲,爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来. 就像一只虫子在一幢楼里不知疲倦地爬来爬去.你可以简单地想象每个爬虫都是你的「分身」。就像孙悟空拔了一撮汗毛,吹出一堆猴子一样****其实就是利用了这种爬虫技术, 每天放出无数爬虫到各个网站,把他们的信息抓回来,然后化好淡妆排着小队等你来检索。

2023-06-25 21:05:56 545

原创 Python正则表达式

正则表达式(regular expression):一种字符串匹配的模式,可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。模式:一种特定的字符串模式,这个模式是通过一些特殊的符号组成的。某种:也可以理解为是一种模糊匹配。精准匹配:select * from blog where title=‘python’;模糊匹配:select * from blog where title like ‘%python%’;

2023-06-24 18:32:17 22

原创 Python高级语法

第二种情况:复制的对象中有复杂子对象(例如列表中的一个子元素是一个列表),如果不改变其中复杂子对象,浅复制的值改变并不会影响原来的值。但是改变原来的值中的复杂子对象的值会影响浅复制的值。(该对象所指向的内存中的值可以被改变。1)当浅复制的值是==不可变对象(字符串、元组、数值类型)==时和“赋值”的情况一样,对象的id值*(id()函数用于获取对象的内存地址)*与浅复制原来的值相同。第一种情况:复制的对象中无复杂子对象,原来值的改变并不会影响浅复制的值,同时浅复制的值改变也并不会影响原来的值。

2023-06-21 20:36:25 53

原创 Python进程和线程

多任务是指在同一时间内执行多个任务。例如: 现在电脑安装的操作系统都是多任务操作系统,可以同时运行着多个软件。① 线程不能独立存在,是依附在进程里面的,没有进程就没有线程。② 一个进程默认提供一条线程,进程可以创建多个线程。

2023-06-20 11:37:30 21

原创 HTTP协议与静态Web服务器开发

网址又称为URL,URL的英文全拼是(Uniform Resoure Locator),表达的意思是统一资源定位符,通俗理解就是网络资源地址。URL地址:https://www.itcast.com/18/1122/10/E178J2O4000189FH.htmlHTTP协议的全称是(HyperText Transfer Protocol),翻译过来就是超文本传输协议。超文本是指在文本数据的基础上还包括非文本数据,非文本数据有图片、音乐、视频等,而这些非文本数据会使用链接。

2023-06-19 11:08:51 19

原创 Python笔记11 - TCP网络编程

网络:将独立功能的计算机进行相互连接,实现信息传递、信息共享。

2023-06-16 15:17:14 63

原创 Python笔记10 - HTML

定义超文本标记语言,标记就是标签, ,标签大多数都成对出现超文本:(超越文本限制)图片、音频等;网页之间相互跳转(超链接)

2023-06-14 08:25:31 72 1

原创 Python笔记9 - 闭包

① 使用装饰器修饰带有参数的函数,为了无论几个参数都能通用这个装饰器,# 可以在在内部函数定义时加入不定长参数*args,**kwargs ,也需要在内部函数中引用的外部函数加入不定长参数# 也需要在装饰器内部函数中加入不定长参数# 2,定义装饰器,加入额外的功能,比如一些日志信息# 有嵌套,def inner(*args,**kwargs): # 要加不定长参数# 装饰器想要添加的功能print('正在加载中.....')print('正在进行的是加法运算')# 有引用。

2023-06-09 21:57:48 33

原创 Python笔记8 - 面向对象

类中方法的调用顺序:子类会在自己的类寻找某方法,如果找不到才会去父类中寻找,所以重写父类的方法后,父类的方法还是存在的。,具有相同或相似属性和动作的一组实体的集合,使用类来产生对象,用类来规定对象的属性和方法。子类默认继承父类的所有属性和方法,也可以重写(覆盖)父类的属性和方法(扩展):只能继承一个类,会继承父类的所有属性和方法,具有传递性(可以多层继承)公有(属性、方法),私有(属性、方法) 控制外部对隐藏的属性的操作行为。当子类的成员和继承的父类的成员重名时,子类的成员会覆盖掉父类的成员内容。

2023-06-08 15:06:53 45 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除