- 博客(55)
- 收藏
- 关注
原创 jupyter快捷键
Jupyter Notebook 有两种模式:命令模式(esc) 和 编辑模式(enter)。“开始”——“条件格式”——“数据条”——渐变/实心填充。Markdown 单元格快捷键。删除单元格:esc+dd。二、windows快捷键。隐藏/显示:esc+o。剪贴板快捷键Win+V。三、excel快捷键。
2024-06-27 18:28:47 263
原创 Linux相关初步运用
rm -f /root/logs/game/nohup.log#删除文件。rm -rf /root/logs/game#删除文件夹。#查看正在运行的jupyert进程。来查看Python的搜索路径,会。#python环境变量的添加。在Python解释器中,使用。#返回上级目录cd..
2024-06-27 10:58:06 415 2
原创 环境配置的相关问题
所以一开始的中心都在降numpy版本上,一直降不下来,怎么都显示Could not build wheels for numpy,后来发现是shap的问题。
2024-06-25 23:45:30 742
原创 一些宏观理解
它支持SSH、Telnet、Rlogin等多种协议,提供了用户友好的界面和丰富的功能,如会话管理、脚本支持和文件传输等。这些机器通常安装了开发所需的各种工具和环境,比如IDE(集成开发环境)、编译器和调试器等。线上开发机是部署在远程服务器上的开发环境,开发人员通过网络连接到这些机器进行开发和调试。它是Vi编辑器的增强版本,提供了丰富的功能和插件支持,具有强大的文本处理能力和高效的操作模式。SSH是一种加密的网络协议,用于在不安全的网络中安全地访问远程计算机。
2024-06-23 21:47:43 308
原创 机器学习补充
比较坏账率(Bad Rate Comparison)是指在不同的数据集或不同的时间段内,对目标变量(通常是二分类问题中的坏账率,即负样本率)进行比较,以评估模型的稳定性和数据分布的变化。在信用评分和风控模型中,WOE编码是一种常用的特征工程方法,它将原始特征转换为一个新的特征,以增强模型的解释性和预测性能。对各个特征进行 WOE 编码的主要目的是将原始特征转换为一个反映特征与目标变量(如违约与否)之间关系的数值。具体来说,KS值表示正类样本的累积分布函数(CDF)与负类样本的累积分布函数之间的最大差异。
2024-06-20 23:27:08 703
原创 相关概念学习
PSI指标就是客群稳定性指标(Population Stability Index),用于衡量两个数据分布之间差异的指标,通过该指标,可以得到不同时间段的样本下,模型在各分数段分布的稳定性, 通常用于监控模型的稳定性和性能,特别是在信用评分和风险管理领域。样本代表性:既要确保选取的样本数量足够反应总体数据的信息,又要确保选取的样本结构和总体数据的结构一致(分层抽样)例如,一个借款人可能在一个季度内从"低风险"迁移到"中风险",或者从"中风险"迁移到"高风险"。是统计学和数据挖掘中常用的指标,特别是在。
2024-06-20 23:16:50 712
原创 各种文件类型
结尾的文件通常是指JavaScript Object Notation(JSON)格式的文件。JSON是一种轻量级的数据交换格式,易于人类阅读和编写,同时也易于机器解析和生成。Pickle是Python中的一个模块,用于将Python对象转换为字节流,以便保存到文件中或者通过网络传输。JSON格式具有跨平台和语言无关的优点,因此广泛应用于各种编程语言和系统中。需要注意的是,Pickle模块是Python特有的,因此。结尾的文件通常是指使用Python的。文件中,然后又从文件中加载回来。
2024-06-18 11:06:36 490
原创 2024年6月17日日志
处理方法:错误是由于在Seaborn库的新版本中移除了对six库的依赖导致的。安装一个较旧的版本的Seaborn/更新代码。
2024-06-17 23:44:28 391
原创 Git与SSH
Git是一种分布式版本控制系统,最初由Linus Torvalds为管理Linux内核开发而设计并开发。Git可以帮助开发团队协作管理代码,跟踪代码变更历史,并在需要时回溯到特定版本。用途:管理代码。
2024-06-16 20:20:18 675
原创 阿里智能信息数据挖掘复盘
第二篇的情感分析,问算法原理,SMOTE算法问原理,K-means算法是否需要特征优化,树模型是否需要特征优化,真笑死,一直在回答特征选择,一首凉凉送给自己。第一篇的重要特征是什么直接忘记,正负样本比,过拟合的判断标准,特征选择,问的好细。欠采样之后的验证集是否一致,笑死我自己都忘了考虑过这个问题了。多目标优化用的什么方法,特征重要性的原理,SHAP的原理。挫败呜呜呜,钉钉忘装,还要手机登录,迟到三分钟。但好歹大厂就是大厂,我需要的就是这样的查漏补缺。一上来就问项目,没有自我介绍。
2024-05-28 16:49:23 220
原创 一些python代码基础
返回的列表中的每个元素都转换为整数类型,但这些转换并没有立即执行,而是在需要时逐个生成。的结果是一个 map 对象,它是一个迭代器。1、将输入转化为list。
2024-05-25 21:13:09 426
原创 Python常见面试题(三)——numpy和pandas
也叫匿名函数,即,函数没有具体的名称,不用考虑函数命名;使用lambda可以省去定义函数的过程,让代码更加精简。series和函数的应用,注意是一列一列的,应为是序列。主要讲二者的结合应用。2、lambda函数。
2024-05-22 23:57:03 306
原创 Python常见面试题(二)——numpy和pandas
NumPy主要用于数值计算,提供了多维数组对象ndarray,支持等功能。Pandas则建立在NumPy之上,提供了更高级的数据结构,主要用于数据分析,尤其是处理表格化数据。NumPy的核心是多维数组对象ndarray,它可以表示任意维度的数组。Pandas提供了两种主要的数据结构:Series(一维标记数组)和DataFrame(二维带标签的数据表)。NumPy的数组只能使用访问元素。Pandas的Series和DataFrame可以使用来访问数据,也可以通过访问。
2024-05-22 18:55:21 705
原创 Python常见面试题(一)
在处理大量数据时,没有什么比Pandas(熊猫)更有帮助了,因为Pandas让操作和可视化数据变得轻而易举。Append将一个值添加到一个列表中,而extend将另一个列表的值添加到一个列表中。“is”用来检查对象的标识(id),而“==”用来检查两个对象是否相等。可变否、有序否、元素类型相同否【列表表示的是顺序,元组表示的是结构】
2024-05-22 18:39:18 104
原创 模拟方法(一)
2. 接受拒绝方法(Accept-Reject Method):通过生成服从一个辅助分布的随机变量,并与原分布进行比较,接受满足条件的样本并拒绝不满足条件的样本,从而生成符合原分布的随机变量。6. 蒙特卡洛马尔可夫链(Monte Carlo Markov Chain)模拟:利用马尔可夫链的性质,通过随机漫步的方式生成样本,用于估计复杂系统的性质或参数。4. 吉布斯采样(Gibbs Sampling):用于从联合分布中抽取样本的一种马尔可夫链蒙特卡洛方法,通过依次更新每个变量的取值来生成样本。
2024-05-22 12:57:52 300
原创 数分—AB测试
在AB测试中,被比较的版本被标记为A组和B组,然后两组被随机分配给不同的用户群体或实验对象。最后,通过对比两组数据的差异,评估哪个版本表现更好或更有效。通过AB测试,可以基于数据和实验证据来做出更明智的决策,从而提高产品的效果和性能。2. 控制变量:在AB测试中,除了被测试的变量外,其他可能影响结果的变量应尽量保持一致。4. 使用合适的统计分析方法:选择合适的统计分析方法可以有效地减小估计误差,提高实验结果的可靠性。1. 增加样本量:增加实验样本量可以降低随机性带来的影响,从而减小指标的方差。
2024-05-17 14:33:00 270
原创 MySQL复习(五)
在 SQL 中,使用等号来比较值时,NULL 与任何其他值(包括 NULL 本身)进行比较的结果都是 UNKNOWN,而不是 true 或 false。
2024-05-17 14:23:23 83
原创 Python复习(四)
从起始位置匹配,匹配成功返回位置,匹配失败返回None.扫描整个字符串并返回第一个成功的匹配。实例应用:驼峰式写法转换为下划线写法。一般是可以替换的,这里匹配的是位置。3、re.sub方法——检索和替换。2、re.search方法。1、re.match方法。
2024-05-16 19:47:35 162
原创 知乎23届数据分析校招A卷——笔记
题目:创作者和粉丝的关系是社区内的比较重要的关系,我们需要对这些关系进行研究,作用在内容分发上,让社区创作者和用户获得更好的体验。除了考虑发帖频率以外,还要考虑时间的问题,有些粉丝在最初关注创作者的时候可能关系强度较强,可是可能在之后的时间就可能变得并不活跃,因而时间方面关注近期可能更合理一点。
2024-05-05 21:33:41 888
原创 【RYG】Python技能练习场—查漏补缺(二)
通常用作占位符,表示不执行任何操作,主要用于语法结构中要求有语句的地方,但又不需要做任何实际操作的情况。例如,在定义一个函数或类时,如果暂时不需要写函数体或方法体,可以使用"pass"来占位,避免出现语法错误。中的元素随机排列的方法,通常与 random 模块一起使用。例如,可以通过导入 random 模块并使用 random.shuffle() 方法对列表进行元素洗牌操作。count() 方法是Python中用于统计指定元素在序列中出现次数的方法。这个方法可以用于字符串、列表、元组等序列类型。
2024-05-03 13:43:46 270
原创 【RYG】Python技能练习场—查漏补缺(一)
例如,"abc" < "def" 返回True,因为首先比较第一个字符'a'和'd',由于'a'的Unicode码点比'd'小,所以"abc"比"def"在字典序中靠前。如果该键存在,则返回其对应的值。语法为 `string.replace(old, new)`,其中 `old` 是要被替换的字符或子串,而 `new` 是替换后的新字符或子串。可以通过指定连接字符实现不同的连接方式,例如 `'-'.join(['a', 'b', 'c'])` 将生成一个连接后的字符串 `'a-b-c'`。
2024-05-02 21:59:19 769 1
原创 机器学习常见面试题总结
训练模型的目的——最小化损失函数——可以分解为和用训练出的的输出的与的输出值之间的差异。输出值之间的差异。的存在是学习算法所无法解决的问题,决定了学习的上限。假设在数据已经给定的情况下,此时上限已定,我们要做的就是尽可能的接近这个上限。
2024-05-02 20:19:05 487
原创 python做题补充
列表推导式x = [i for i in range(1, num+1) if i % 2 == 0]而list(word)将返回 `['h', 'e', 'l', 'l', 'o']`不可以x=y.sort(),用y.sort()即可,因为不会返回值。word.split() 默认是按空格进行分割,获得的是整个单词的。Python 内置函数 bin() 将数字转换为二进制。set(word)就会是去重的字母集合。注意用sort()的时候。关于format()函数。
2024-04-29 15:10:13 301
原创 Python基础复习(二)
'a':追加,不想清空原来的内容而是直接在后面追加新的内容,就用'a'这个模式【add】'w':写,如果没有这个文件,就创建一个;如果有,就把原文件的内容清空再写入新的东西。用于定义一个在 try...except... 语句块中的可选的最后执行的代码块。'r+' == r+w(可读可写,文件若不存在就报错)'w+' == w+r(可读可写,文件若不存在就创建)'a+' ==a+r(可追加可读,文件若不存在就创建)常常可以捕捉的错误类型【也可以不指定错误类型!'r':读,open()的默认值就是r。
2024-04-28 13:36:21 377 1
原创 R语言相关知识点
字符串匹配:grep()负责搜索给定字符串对象中特定表达式 ,并返回其位置索引。grepl()函数与之类似,但其后面的”l”则意味着返回的将是逻辑值。字符串截取:substr()其参数是子集所处的起始和终止位置。字符串替代:gsub() chartr() sub()大小写替换:toupper() tolower()字符串分割:strsplit()获取字符串长度:nchar()字符串拼接:paste()
2024-04-27 21:05:29 413
原创 统计知识复习
进行相关性分析时,不必事先确定两个变量中哪个是自变量哪个是因变量,相关性分析中两个变量都是随机的变量。进行回归分析时,必须事先确定自变量和因变量,而两个变量中只有自变量是可以控制的量,因变量是随机的量。
2024-04-22 20:49:54 352
原创 MySQL复习(五)
2. Read Committed 读取已提交:给予事务一定的隔离,这样我们只能读取已提交的数据,这防止了Dirty Reads脏读,但在这个级别下,事务仍可能读取同个内容两次而得到不同的结果,因为另一个事务可能在两次读取之间更新并提交了数据,也就是它不能防止Non-repeating Reads 不可重复读取 (或 Inconsistent Read 不一致读取)当 MySQL 看到上面这样的事务语句组,会把所有这些更改写入数据库,如果有任何一个更改失败,会自动撤销之前的修改,这种情况被称为事务被。
2024-04-22 16:52:56 550
原创 机器学习刷题笔记
K-means:最刚开始的中心点是随机指定的,而中心点不同的指定方法,会使得聚类算法运行的最终结果有很大的不同。【自写】ROC是机器学习模型中,判断分类拟合标准的一个衡量指标,横轴为,纵轴为,当为随机划分时,ROC曲线的面积为0.5,在利用机器学习方法进行拟合时,其值越接近于1越好。DBSCAN 算法是基于密度对数据点进行处理的,主要是将特征空间中足够密集的点划分为同一个簇,簇的形状可以是任意的,而且数据点中有噪声点的话,不会将这些点划分给某个簇。D 正样本的权重设置为10,负样本权重设置为1。
2024-04-19 13:15:29 400
原创 MySQL复习(四)
2:删除范围:drop删除整个表(结构和数据一起删除);trustcate删除全部记录,但不删除表结构;delete只删除数据。TRUNCATE(1.99,1)对前面参数进行截取操作,截至小数点后一位;having子句即可包含聚合函数作用的字段也可包括普通的标量字段。处理效率:drop>trustcate>delete。ORDER BY 是在SELECT之后;LIMIT是整个的LIMIT;ORDER BY 默认升序排序。
2024-04-19 12:18:20 198
原创 操作系统Linux学习
个人桌面操作系统:Windows、macOS服务器操作系统:LinuxLinux应用:后端开发、运维开发、大数据开发、前端开发、测试开发…操作系统是软件的一类,主要作用是协助用具调度硬件工作,充当用户和计算机硬件之间的桥梁。软件是指计算机系统中的一系列程序、数据和文档等非硬件的部分。软件可以分为系统软件和应用软件两大类。系统软件是管理和控制计算机硬件及应用软件运行的软件,如操作系统;应用软件是由用户使用的完成各种任务的软件程序,如办公软件、游戏软件等。
2024-04-18 14:35:49 1047
原创 MySQL复习(三)
double:双精度浮点型,例如 double(5,2)表示最多 5 位,其中必须有 2 位小数,即最大值为 999.99;DDL(Data Definition Language):数据定义语言,用来定义数据库对象:库、表、列等;DML(Data Manipulation Language):数据操作语言,用来定义数据库记录(数据);DATETIME:日期时间,格式为:yyyy-MM-dd hh:mm:ss。date:日期类型,格式为:yyyy-MM-dd;time:时间类型,格式为:hh:mm:ss。
2024-04-18 14:18:49 175
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人