自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(55)
  • 收藏
  • 关注

原创 jupyter快捷键

Jupyter Notebook 有两种模式:命令模式(esc) 和 编辑模式(enter)。“开始”——“条件格式”——“数据条”——渐变/实心填充。Markdown 单元格快捷键。删除单元格:esc+dd。二、windows快捷键。隐藏/显示:esc+o。剪贴板快捷键Win+V。三、excel快捷键。

2024-06-27 18:28:47 263

原创 Linux相关初步运用

rm -f /root/logs/game/nohup.log#删除文件。rm -rf /root/logs/game#删除文件夹。#查看正在运行的jupyert进程。来查看Python的搜索路径,会。#python环境变量的添加。在Python解释器中,使用。#返回上级目录cd..

2024-06-27 10:58:06 415 2

原创 python运行相关

Windows 操作系统下用任务管理器查看。

2024-06-26 15:39:13 369

原创 环境配置的相关问题

所以一开始的中心都在降numpy版本上,一直降不下来,怎么都显示Could not build wheels for numpy,后来发现是shap的问题。

2024-06-25 23:45:30 742

原创 一些宏观理解

它支持SSH、Telnet、Rlogin等多种协议,提供了用户友好的界面和丰富的功能,如会话管理、脚本支持和文件传输等。这些机器通常安装了开发所需的各种工具和环境,比如IDE(集成开发环境)、编译器和调试器等。线上开发机是部署在远程服务器上的开发环境,开发人员通过网络连接到这些机器进行开发和调试。它是Vi编辑器的增强版本,提供了丰富的功能和插件支持,具有强大的文本处理能力和高效的操作模式。SSH是一种加密的网络协议,用于在不安全的网络中安全地访问远程计算机。

2024-06-23 21:47:43 308

原创 机器学习补充

比较坏账率(Bad Rate Comparison)是指在不同的数据集或不同的时间段内,对目标变量(通常是二分类问题中的坏账率,即负样本率)进行比较,以评估模型的稳定性和数据分布的变化。在信用评分和风控模型中,WOE编码是一种常用的特征工程方法,它将原始特征转换为一个新的特征,以增强模型的解释性和预测性能。对各个特征进行 WOE 编码的主要目的是将原始特征转换为一个反映特征与目标变量(如违约与否)之间关系的数值。具体来说,KS值表示正类样本的累积分布函数(CDF)与负类样本的累积分布函数之间的最大差异。

2024-06-20 23:27:08 703

原创 相关概念学习

PSI指标就是客群稳定性指标(Population Stability Index),用于衡量两个数据分布之间差异的指标,通过该指标,可以得到不同时间段的样本下,模型在各分数段分布的稳定性, 通常用于监控模型的稳定性和性能,特别是在信用评分和风险管理领域。样本代表性:既要确保选取的样本数量足够反应总体数据的信息,又要确保选取的样本结构和总体数据的结构一致(分层抽样)例如,一个借款人可能在一个季度内从"低风险"迁移到"中风险",或者从"中风险"迁移到"高风险"。是统计学和数据挖掘中常用的指标,特别是在。

2024-06-20 23:16:50 712

原创 各种文件类型

结尾的文件通常是指JavaScript Object Notation(JSON)格式的文件。JSON是一种轻量级的数据交换格式,易于人类阅读和编写,同时也易于机器解析和生成。Pickle是Python中的一个模块,用于将Python对象转换为字节流,以便保存到文件中或者通过网络传输。JSON格式具有跨平台和语言无关的优点,因此广泛应用于各种编程语言和系统中。需要注意的是,Pickle模块是Python特有的,因此。结尾的文件通常是指使用Python的。文件中,然后又从文件中加载回来。

2024-06-18 11:06:36 490

原创 2024年6月17日日志

处理方法:错误是由于在Seaborn库的新版本中移除了对six库的依赖导致的。安装一个较旧的版本的Seaborn/更新代码。

2024-06-17 23:44:28 391

原创 虚拟环境初接触

【代码】虚拟环境初接触。

2024-06-17 11:47:35 97

原创 Git与SSH

Git是一种分布式版本控制系统,最初由Linus Torvalds为管理Linux内核开发而设计并开发。Git可以帮助开发团队协作管理代码,跟踪代码变更历史,并在需要时回溯到特定版本。用途:管理代码。

2024-06-16 20:20:18 675

原创 python安装及环境配置相关问题记录

安装完成之后一切正常,利用命令提示符测试了一下全都正常,也不用把python的路径添加到系统变量里去。

2024-06-16 16:31:46 375

原创 阿里智能信息数据挖掘复盘

第二篇的情感分析,问算法原理,SMOTE算法问原理,K-means算法是否需要特征优化,树模型是否需要特征优化,真笑死,一直在回答特征选择,一首凉凉送给自己。第一篇的重要特征是什么直接忘记,正负样本比,过拟合的判断标准,特征选择,问的好细。欠采样之后的验证集是否一致,笑死我自己都忘了考虑过这个问题了。多目标优化用的什么方法,特征重要性的原理,SHAP的原理。挫败呜呜呜,钉钉忘装,还要手机登录,迟到三分钟。但好歹大厂就是大厂,我需要的就是这样的查漏补缺。一上来就问项目,没有自我介绍。

2024-05-28 16:49:23 220

原创 一些python代码基础

返回的列表中的每个元素都转换为整数类型,但这些转换并没有立即执行,而是在需要时逐个生成。的结果是一个 map 对象,它是一个迭代器。1、将输入转化为list。

2024-05-25 21:13:09 426

原创 Python常见面试题(三)——numpy和pandas

也叫匿名函数,即,函数没有具体的名称,不用考虑函数命名;使用lambda可以省去定义函数的过程,让代码更加精简。series和函数的应用,注意是一列一列的,应为是序列。主要讲二者的结合应用。2、lambda函数。

2024-05-22 23:57:03 306

原创 Python常见面试题(二)——numpy和pandas

NumPy主要用于数值计算,提供了多维数组对象ndarray,支持等功能。Pandas则建立在NumPy之上,提供了更高级的数据结构,主要用于数据分析,尤其是处理表格化数据。NumPy的核心是多维数组对象ndarray,它可以表示任意维度的数组。Pandas提供了两种主要的数据结构:Series(一维标记数组)和DataFrame(二维带标签的数据表)。NumPy的数组只能使用访问元素。Pandas的Series和DataFrame可以使用来访问数据,也可以通过访问。

2024-05-22 18:55:21 705

原创 Python常见面试题(一)

在处理大量数据时,没有什么比Pandas(熊猫)更有帮助了,因为Pandas让操作和可视化数据变得轻而易举。Append将一个值添加到一个列表中,而extend将另一个列表的值添加到一个列表中。“is”用来检查对象的标识(id),而“==”用来检查两个对象是否相等。可变否、有序否、元素类型相同否【列表表示的是顺序,元组表示的是结构】

2024-05-22 18:39:18 104

原创 模拟方法(一)

2. 接受拒绝方法(Accept-Reject Method):通过生成服从一个辅助分布的随机变量,并与原分布进行比较,接受满足条件的样本并拒绝不满足条件的样本,从而生成符合原分布的随机变量。6. 蒙特卡洛马尔可夫链(Monte Carlo Markov Chain)模拟:利用马尔可夫链的性质,通过随机漫步的方式生成样本,用于估计复杂系统的性质或参数。4. 吉布斯采样(Gibbs Sampling):用于从联合分布中抽取样本的一种马尔可夫链蒙特卡洛方法,通过依次更新每个变量的取值来生成样本。

2024-05-22 12:57:52 300

原创 数分—AB测试

在AB测试中,被比较的版本被标记为A组和B组,然后两组被随机分配给不同的用户群体或实验对象。最后,通过对比两组数据的差异,评估哪个版本表现更好或更有效。通过AB测试,可以基于数据和实验证据来做出更明智的决策,从而提高产品的效果和性能。2. 控制变量:在AB测试中,除了被测试的变量外,其他可能影响结果的变量应尽量保持一致。4. 使用合适的统计分析方法:选择合适的统计分析方法可以有效地减小估计误差,提高实验结果的可靠性。1. 增加样本量:增加实验样本量可以降低随机性带来的影响,从而减小指标的方差。

2024-05-17 14:33:00 270

原创 MySQL复习(五)

在 SQL 中,使用等号来比较值时,NULL 与任何其他值(包括 NULL 本身)进行比较的结果都是 UNKNOWN,而不是 true 或 false。

2024-05-17 14:23:23 83

原创 Python复习(四)

从起始位置匹配,匹配成功返回位置,匹配失败返回None.扫描整个字符串并返回第一个成功的匹配。实例应用:驼峰式写法转换为下划线写法。一般是可以替换的,这里匹配的是位置。3、re.sub方法——检索和替换。2、re.search方法。1、re.match方法。

2024-05-16 19:47:35 162

原创 PYTHON做题复盘

【代码】PYTHON做题复盘。

2024-05-09 13:23:05 531

原创 知乎23届数据分析校招A卷——笔记

题目:创作者和粉丝的关系是社区内的比较重要的关系,我们需要对这些关系进行研究,作用在内容分发上,让社区创作者和用户获得更好的体验。除了考虑发帖频率以外,还要考虑时间的问题,有些粉丝在最初关注创作者的时候可能关系强度较强,可是可能在之后的时间就可能变得并不活跃,因而时间方面关注近期可能更合理一点。

2024-05-05 21:33:41 888

原创 【RYG】Python技能练习场—查漏补缺(二)

通常用作占位符,表示不执行任何操作,主要用于语法结构中要求有语句的地方,但又不需要做任何实际操作的情况。例如,在定义一个函数或类时,如果暂时不需要写函数体或方法体,可以使用"pass"来占位,避免出现语法错误。中的元素随机排列的方法,通常与 random 模块一起使用。例如,可以通过导入 random 模块并使用 random.shuffle() 方法对列表进行元素洗牌操作。count() 方法是Python中用于统计指定元素在序列中出现次数的方法。这个方法可以用于字符串、列表、元组等序列类型。

2024-05-03 13:43:46 270

原创 【RYG】Python技能练习场—查漏补缺(一)

例如,"abc" < "def" 返回True,因为首先比较第一个字符'a'和'd',由于'a'的Unicode码点比'd'小,所以"abc"比"def"在字典序中靠前。如果该键存在,则返回其对应的值。语法为 `string.replace(old, new)`,其中 `old` 是要被替换的字符或子串,而 `new` 是替换后的新字符或子串。可以通过指定连接字符实现不同的连接方式,例如 `'-'.join(['a', 'b', 'c'])` 将生成一个连接后的字符串 `'a-b-c'`。

2024-05-02 21:59:19 769 1

原创 机器学习常见面试题总结

训练模型的目的——最小化损失函数——可以分解为和用训练出的的输出的与的输出值之间的差异。输出值之间的差异。的存在是学习算法所无法解决的问题,决定了学习的上限。假设在数据已经给定的情况下,此时上限已定,我们要做的就是尽可能的接近这个上限。

2024-05-02 20:19:05 487

原创 python复习(三)

类是一种面向。

2024-04-29 21:50:55 543

原创 python做题补充

列表推导式x = [i for i in range(1, num+1) if i % 2 == 0]而list(word)将返回 `['h', 'e', 'l', 'l', 'o']`不可以x=y.sort(),用y.sort()即可,因为不会返回值。word.split() 默认是按空格进行分割,获得的是整个单词的。Python 内置函数 bin() 将数字转换为二进制。set(word)就会是去重的字母集合。注意用sort()的时候。关于format()函数。

2024-04-29 15:10:13 301

原创 Python基础复习(二)

'a':追加,不想清空原来的内容而是直接在后面追加新的内容,就用'a'这个模式【add】'w':写,如果没有这个文件,就创建一个;如果有,就把原文件的内容清空再写入新的东西。用于定义一个在 try...except... 语句块中的可选的最后执行的代码块。'r+' == r+w(可读可写,文件若不存在就报错)'w+' == w+r(可读可写,文件若不存在就创建)'a+' ==a+r(可追加可读,文件若不存在就创建)常常可以捕捉的错误类型【也可以不指定错误类型!'r':读,open()的默认值就是r。

2024-04-28 13:36:21 377 1

原创 R语言相关知识点

字符串匹配:grep()负责搜索给定字符串对象中特定表达式 ,并返回其位置索引。grepl()函数与之类似,但其后面的”l”则意味着返回的将是逻辑值。字符串截取:substr()其参数是子集所处的起始和终止位置。字符串替代:gsub() chartr() sub()大小写替换:toupper() tolower()字符串分割:strsplit()获取字符串长度:nchar()字符串拼接:paste()

2024-04-27 21:05:29 413

原创 python和R对比记忆

1、pythontype()str()判断==2、R语言3、MySQL判断=

2024-04-27 19:36:18 528 1

原创 统计知识复习

进行相关性分析时,不必事先确定两个变量中哪个是自变量哪个是因变量,相关性分析中两个变量都是随机的变量。进行回归分析时,必须事先确定自变量和因变量,而两个变量中只有自变量是可以控制的量,因变量是随机的量。

2024-04-22 20:49:54 352

原创 MySQL复习(五)

2. Read Committed 读取已提交:给予事务一定的隔离,这样我们只能读取已提交的数据,这防止了Dirty Reads脏读,但在这个级别下,事务仍可能读取同个内容两次而得到不同的结果,因为另一个事务可能在两次读取之间更新并提交了数据,也就是它不能防止Non-repeating Reads 不可重复读取 (或 Inconsistent Read 不一致读取)当 MySQL 看到上面这样的事务语句组,会把所有这些更改写入数据库,如果有任何一个更改失败,会自动撤销之前的修改,这种情况被称为事务被。

2024-04-22 16:52:56 550

原创 Python基础复习

range(start, stop, step)

2024-04-21 13:40:27 171 1

原创 Juypter-related

1、代码缩进与后退ctrl+[ctrl+]

2024-04-19 19:55:01 82

原创 机器学习刷题笔记

K-means:最刚开始的中心点是随机指定的,而中心点不同的指定方法,会使得聚类算法运行的最终结果有很大的不同。【自写】ROC是机器学习模型中,判断分类拟合标准的一个衡量指标,横轴为,纵轴为,当为随机划分时,ROC曲线的面积为0.5,在利用机器学习方法进行拟合时,其值越接近于1越好。DBSCAN 算法是基于密度对数据点进行处理的,主要是将特征空间中足够密集的点划分为同一个簇,簇的形状可以是任意的,而且数据点中有噪声点的话,不会将这些点划分给某个簇。D 正样本的权重设置为10,负样本权重设置为1。

2024-04-19 13:15:29 400

原创 MySQL复习(四)

2:删除范围:drop删除整个表(结构和数据一起删除);trustcate删除全部记录,但不删除表结构;delete只删除数据。TRUNCATE(1.99,1)对前面参数进行截取操作,截至小数点后一位;having子句即可包含聚合函数作用的字段也可包括普通的标量字段。处理效率:drop>trustcate>delete。ORDER BY 是在SELECT之后;LIMIT是整个的LIMIT;ORDER BY 默认升序排序。

2024-04-19 12:18:20 198

原创 操作系统Linux学习

个人桌面操作系统:Windows、macOS服务器操作系统:LinuxLinux应用:后端开发、运维开发、大数据开发、前端开发、测试开发…操作系统是软件的一类,主要作用是协助用具调度硬件工作,充当用户和计算机硬件之间的桥梁。软件是指计算机系统中的一系列程序、数据和文档等非硬件的部分。软件可以分为系统软件和应用软件两大类。系统软件是管理和控制计算机硬件及应用软件运行的软件,如操作系统;应用软件是由用户使用的完成各种任务的软件程序,如办公软件、游戏软件等。

2024-04-18 14:35:49 1047

原创 MySQL复习(三)

double:双精度浮点型,例如 double(5,2)表示最多 5 位,其中必须有 2 位小数,即最大值为 999.99;DDL(Data Definition Language):数据定义语言,用来定义数据库对象:库、表、列等;DML(Data Manipulation Language):数据操作语言,用来定义数据库记录(数据);DATETIME:日期时间,格式为:yyyy-MM-dd hh:mm:ss。date:日期类型,格式为:yyyy-MM-dd;time:时间类型,格式为:hh:mm:ss。

2024-04-18 14:18:49 175

原创 MySQL复习(二)

一、重要函数(别名:记不住函数)、3、聚合窗口函数——OVER。1、时间和日期处理函数。

2024-04-16 23:51:40 190 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除