月亮月亮要去太阳
码龄6年
关注
提问 私信
  • 博客:38,368
    动态:4,027
    42,395
    总访问量
  • 67
    原创
  • 41,585
    排名
  • 295
    粉丝
  • 0
    铁粉
  • 学习成就
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2018-11-15
博客简介:

qq_43710593的博客

查看详细资料
  • 原力等级
    成就
    当前等级
    4
    当前总分
    540
    当月
    5
个人成就
  • 获得372次点赞
  • 内容获得8次评论
  • 获得302次收藏
创作历程
  • 58篇
    2024年
  • 9篇
    2023年
成就勋章
兴趣领域 设置
  • 人工智能
    聚类
创作活动更多

HarmonyOS开发者社区有奖征文来啦!

用文字记录下您与HarmonyOS的故事。参与活动,还有机会赢奖,快来加入我们吧!

0人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

面试题常见

但因为on是先把不符合条件的记录过滤后才进行统计,它就可以减少中间运算要处理的数据,按理说应该速度是最快的。然而where statement在table2的列上面,则完全忽视了NULL的行,最终结果和INNER JOIN的结果是一样的。union和union all的区别是,union会自动压缩多个结果集合中的重复结果,而union all则将所有的结果全部显示出来,不管是不是重复。UNION在进行表链接后会筛选掉重复的记录,所以在表链接后会对所产生的结果集进行排序运算,删除重复的记录再返回结果。
原创
发布博客 2024.09.24 ·
856 阅读 ·
6 点赞 ·
0 评论 ·
11 收藏

共线性排查

的目的是计算特征之间的相关系数矩阵,并对相关性高于某个阈值(0.7)的特征对进行处理,以保留信息量更大的特征(通过信息值IV来衡量),IV。对于错误值("inf"、"-inf"、"\\N"、"None")&占位符(-8887-8888-9999)等替换成np.nan。占位符的含义可能是没有查询到,查询错误(这些是在写数据接入解析代码的时候根据对方的接口文档写的时候去写的)优点:普适性(数据量大),公平性,对称性,无分布假设前提。:和目标变量相关性高,但彼此之间相关性不高的变量。数据、金融市场数据等。
原创
发布博客 2024.09.24 ·
333 阅读 ·
6 点赞 ·
0 评论 ·
2 收藏

spark-scala使用与安装(一)

Scala是一门多范式的编程语言,一种类似java的编程语言,设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。
原创
发布博客 2024.09.20 ·
1063 阅读 ·
13 点赞 ·
0 评论 ·
15 收藏

R和Python数据格式的通用性

总结:Parquet 适合长期存储和归档,而 Feather 则更适用于数据的直接读写和操作,特别是在计算任务中的实时数据处理。优先选择的数据格式是Apache Arrow所定义的数据格式,即Parquet和Feather。pkl是适用于python之间的传输;Rdata之类的只用于R之间的传输;
原创
发布博客 2024.09.13 ·
199 阅读 ·
3 点赞 ·
0 评论 ·
0 收藏

SQL典型练习题

表(driver)说明:司机登录登出明细表,由于同一司机有可能同时登录两个司机端,所以同一时间段一个司机有可能会产生两条或者更多条数据。注:我们保证在8月1日0时做了一次司机清场,即保证不会有司机8月1日之前登录8月1日之后退出的情况出现。题目:请你统计2024年8月1日后的所有司机在线时长,要求对司机时间去重,每个司机在线时长精确到秒。login 登录时间 yyyy-mm-dd HH:MM:SS。exit 下线时间 yyyy-mm-dd HH:MM:SS。over可以加想加的,改变表的结构。
原创
发布博客 2024.08.27 ·
819 阅读 ·
5 点赞 ·
1 评论 ·
4 收藏

MySQL和Hadoop

都是数据库,mysql用sql,hadoop用的是hiveql。(大数据vs小数据)(结构化vs分布式)2、插入:Hive不支持单行插入,通常需要通过加载文件的方式插入数据。HiveQL对分区表有很好的支持,通常在创建表时指定分区。1、创建表:HiveQL中通常需要指定行格式和存储格式。针对结构化数据的存储、管理、查询。:Hadoop 包含多个组件(:Hadoop 是一个开源的。,用于大规模数据存储和处理。hadoop下的部分。
原创
发布博客 2024.08.27 ·
445 阅读 ·
2 点赞 ·
0 评论 ·
3 收藏

SQL语句复习

CTE是一种命名的临时结果集,CTE是通过。一、CTE和WITH。
原创
发布博客 2024.08.27 ·
376 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

git命令

git checkout -b feature-branch origin/feature-branch[创建一个与远端分支对应的本地分支,并切换到该分支]git pull origin master [同步远端master分支,将远程主机的最新内容拉下来后直接合并]【注意:即便是在本地分支上有更改,不会按照预想的提交,要先git add 才可以,push也才会生效】git checkout -b new-feature [从更新后的master分支创建新的分支]将暂存区的更改提交到本地仓库。
原创
发布博客 2024.08.27 ·
434 阅读 ·
8 点赞 ·
0 评论 ·
5 收藏

XSHELL命令

1、命令ls列出文件ls -lals a*2、命令cp复制文件afilecp * /tmp/tmp/docsdocs.bak-a-Rcp -icp -v3、命令mv移动和重命名文件afileafile/tmp4、命令rm删除文件和目录rm afileafilerm *rm-rdomedrm -i a*命令cd更改目录cd ~cd /tmpdircd /cd ..cd ../..cd ~命令mkdir建立目录photos命令mkdir删除目录mkdir命令moreless查看文件内容(|)命令grep。
原创
发布博客 2024.08.22 ·
1095 阅读 ·
18 点赞 ·
0 评论 ·
7 收藏

dataframe

日期出现从1970开始的情况,因为本来是int64类型,先改成str
原创
发布博客 2024.08.22 ·
236 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

gitlab

之后,必须配置Working Dierctory,否则会报错 the working directory '' does not exist。3、当勾选了Run with Python Console,并且配置了Working Directory,此时程序中。1、未勾选Run with Python Console,并且没有写Working Directory,默认以。为起始目录进行相对路径的开端;
原创
发布博客 2024.08.21 ·
297 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏

SHAP值理论

gradient:用于深度学习模型,综合了SHAP、集成梯度、和SmoothGrad等思想,形成单一期望值方程,但速度比DeepExplainer慢,并且做出了不同的假设。ABC三人有每个人完成的效率 ,每两个人完成的效率(有交互作用),三个人一起完成something,应该怎么分配——加性的一种边际分配。tree:适用于树模型和基于树模型的集成算法,如XGBoost,LightGBM或CatBoost。线性回归的系数越大并不意味着影响越强,shap是同一维度的;kernel:模型无关,适用于任何模型。
原创
发布博客 2024.08.15 ·
218 阅读 ·
5 点赞 ·
0 评论 ·
2 收藏

jupyter快捷键

Jupyter Notebook 有两种模式:命令模式(esc) 和 编辑模式(enter)。“开始”——“条件格式”——“数据条”——渐变/实心填充。Markdown 单元格快捷键。删除单元格:esc+dd。二、windows快捷键。隐藏/显示:esc+o。剪贴板快捷键Win+V。三、excel快捷键。
原创
发布博客 2024.06.27 ·
2746 阅读 ·
10 点赞 ·
0 评论 ·
12 收藏

Linux相关初步运用

rm -f /root/logs/game/nohup.log#删除文件。rm -rf /root/logs/game#删除文件夹。#查看正在运行的jupyert进程。来查看Python的搜索路径,会。#python环境变量的添加。在Python解释器中,使用。#返回上级目录cd..
原创
发布博客 2024.06.27 ·
461 阅读 ·
9 点赞 ·
2 评论 ·
4 收藏

python运行相关

Windows 操作系统下用任务管理器查看。
原创
发布博客 2024.06.26 ·
407 阅读 ·
3 点赞 ·
0 评论 ·
4 收藏

环境配置的相关问题

所以一开始的中心都在降numpy版本上,一直降不下来,怎么都显示Could not build wheels for numpy,后来发现是shap的问题。
原创
发布博客 2024.06.25 ·
1834 阅读 ·
7 点赞 ·
0 评论 ·
19 收藏

一些宏观理解

它支持SSH、Telnet、Rlogin等多种协议,提供了用户友好的界面和丰富的功能,如会话管理、脚本支持和文件传输等。这些机器通常安装了开发所需的各种工具和环境,比如IDE(集成开发环境)、编译器和调试器等。线上开发机是部署在远程服务器上的开发环境,开发人员通过网络连接到这些机器进行开发和调试。它是Vi编辑器的增强版本,提供了丰富的功能和插件支持,具有强大的文本处理能力和高效的操作模式。SSH是一种加密的网络协议,用于在不安全的网络中安全地访问远程计算机。
原创
发布博客 2024.06.23 ·
343 阅读 ·
3 点赞 ·
0 评论 ·
6 收藏

机器学习补充

比较坏账率(Bad Rate Comparison)是指在不同的数据集或不同的时间段内,对目标变量(通常是二分类问题中的坏账率,即负样本率)进行比较,以评估模型的稳定性和数据分布的变化。在信用评分和风控模型中,WOE编码是一种常用的特征工程方法,它将原始特征转换为一个新的特征,以增强模型的解释性和预测性能。对各个特征进行 WOE 编码的主要目的是将原始特征转换为一个反映特征与目标变量(如违约与否)之间关系的数值。具体来说,KS值表示正类样本的累积分布函数(CDF)与负类样本的累积分布函数之间的最大差异。
原创
发布博客 2024.06.20 ·
778 阅读 ·
19 点赞 ·
0 评论 ·
18 收藏

相关概念学习

PSI指标就是客群稳定性指标(Population Stability Index),用于衡量两个数据分布之间差异的指标,通过该指标,可以得到不同时间段的样本下,模型在各分数段分布的稳定性, 通常用于监控模型的稳定性和性能,特别是在信用评分和风险管理领域。样本代表性:既要确保选取的样本数量足够反应总体数据的信息,又要确保选取的样本结构和总体数据的结构一致(分层抽样)例如,一个借款人可能在一个季度内从"低风险"迁移到"中风险",或者从"中风险"迁移到"高风险"。是统计学和数据挖掘中常用的指标,特别是在。
原创
发布博客 2024.06.20 ·
819 阅读 ·
24 点赞 ·
0 评论 ·
8 收藏

各种文件类型

结尾的文件通常是指JavaScript Object Notation(JSON)格式的文件。JSON是一种轻量级的数据交换格式,易于人类阅读和编写,同时也易于机器解析和生成。Pickle是Python中的一个模块,用于将Python对象转换为字节流,以便保存到文件中或者通过网络传输。JSON格式具有跨平台和语言无关的优点,因此广泛应用于各种编程语言和系统中。需要注意的是,Pickle模块是Python特有的,因此。结尾的文件通常是指使用Python的。文件中,然后又从文件中加载回来。
原创
发布博客 2024.06.18 ·
521 阅读 ·
8 点赞 ·
0 评论 ·
3 收藏
加载更多