如果我是温帅帅-CSDN博客

原创【智能体】n8n聊天获取链接后爬虫知乎

使用n8n,dify,coze等平台爬虫，支持知乎等网站

2025-06-21 17:29:27 890

它对星型模型的维表进一步层次化，原有的各维表可能被扩展为小的事实表，形成一些局部的层次区域，这些被分解的表都连接到主维度表而不是事实表。而星形模型的连接就少的多，在这个模型中，如果你需要对应信息，你只要将维度表和事实表连接即可。星型架构是一种非正规化的结构，多维数据集的每一个维度都直接与事实表相连接，不存在渐变维度，所以数据有一定的冗余，如在地域维度表中，存在国家A 省B的城市C以及国家A省B的城市D两条记录，那么。业务模型在雪花模型中，数据模型的业务层级是由一个不同维度表主键-外键的关系来代表的。

2025-06-11 15:00:49 902

原创 Preparing metadata (setup.py) ... error error: subprocess-exited-with-error × python setup.py

python版本3,7量化zvt项目。

2024-10-24 18:05:39 2206 1

原创【机器学习】LLM搜索关键字TOPN条-一、向量数据库环境搭建

需求分析：快速响应，支持标题等属性检索，及语义理解检索。多方比对，最后选择qdrant。

2024-07-31 10:42:00 317

原创【问题记录】ORA-31603 对象 ““ 属于类型 , 在方案 ““ 中未找到，存储过程procedure执行报错

ORA-31603: 对象 “V_RST_UTC01390” 属于类型 VIEW, 在方案 “RISKCONFIG_BAK” 中未找到 ORA-06512: 在 “SYS.DBMS_METADATA”, line 5805 ORA-06512: 在 “SYS.DBMS_METADATA”, line 8344 ORA-06512: 在 line 1）当使用 AUTHID CURRENT_USER 时，存储过程将以当前用户的权限上下文执行，而不是存储过程的所有者的权限上下文。翻遍全网没找到解决方法。

2024-05-06 16:23:12 1058 1

原创 [问题记录] oracle问题汇总记录

下载plsql客户端后，登录显示如图所示的错误。解决方法，点击下方链接，下载64位客户端。

2024-04-02 11:32:47 1551

原创【大数据】M1 mac win docker安装kafka+mysql+canal

解决方法: 用另一台 mac, 搭建 canal 去连接win 上的 mysql 和 kafka,曲线救国 QAQ。XXX.XXX.XXX.XXX为你的IP地址，获取方法为打开cmd，输入。删除skip-grant-tables后重启容器，再次进入。修改instance.propertites。修改canal.propertites。通过浏览器访问kafka管理界面。解决方法就是上面的修改ip地址。截图的ip即为你的ip。

2022-12-26 15:22:30 2329

原创【大数据】python连接并使用redis

move(name, db))，将redis的某个值移动到指定的db下。randomkey()，随机获取一个redis的name（不删除）expire(name,time)，为某个name设置超时时间。exists(name)，检测redis的name是否存在。names)，根据name删除redis中的任意数据类型。如果start=size，end=-1，则全部移除。type(name)，获取name对应值的类型。keys(pattern='*’)，根据。在2前面插入value。end=-1输出全部。

2022-12-21 17:05:24 1385

原创【问题记录】Git问题记录

Ghips通过GitHub官方API获取所有IP，并自动找到最快IP。将得到的最快IP写入到本地hosts。注意：更新IP后首次访问GitHub会比较慢，稍等就快了。clone太慢，pull太慢怎么办。

2022-12-20 17:59:32 770

原创【大数据】Mac M1 Docker配置redis一主二从三哨兵(烧饼好吃)

注意此处的 elcc 是我的 redis=master 容器 id, 你需要修改为你的 id。将 sentinel 的三个 config 文件中的 ip 修改为查到的 ip。问题,slaves=0,sentinels=1。然后寻找Gateway。

2022-12-09 15:45:03 1354

原创【大数据】mac M1 Docker配置spark环境集群

在你喜欢的路径下新建 docker-test 文件夹, 在这里 open in terminal。

2022-12-01 17:35:35 967

原创【大数据】mac M1 安装配置 spark, hadoop, scala, java, maven 教程

在 Users/XXX路径下创建 env 文件, 将解压后的文件移动到 env 路径下。注意,此处的python3,可以换成你自己环境的 python命令,具体操作如下。然后按 esc 键退出编辑模式,输入 :wq 保存退出。执行命令检查 spark 是否正常。类似上面,解压后移动到env 下面。检查 hadoop 命令是否可用。按 insert 进入编辑模式。检查 scala 是否可用。在刚才下载的时候输入 y。将下面内容复制粘贴进去。

2022-11-24 11:23:17 2611 2

原创【问题记录】pandas:OverflowError: Python int too large to convert to C long

int ， System.Int16 ， System.Int32和System.Int64与它们的大小之间的区别。Int32和int ：4个字节，32位。Int16 ：2个字节，16位。Int64 ：8个字节，64位。

2022-11-23 15:57:15 1043

原创【SQL】获取今天昨天本周上周本月上月本年去年的起止日期

SELECT DATE_FORMAT(NOW(),‘%Y-%m-%d 00:00:00’)SELECT DATE_FORMAT(NOW(),‘%Y-%m-%d 23:59:59’)SELECT DATE_FORMAT( DATE_SUB(CURDATE(), INTERVAL 1 DAY), ‘%Y-%m-%d 00:00:00’)SELECT DATE_FORMAT( DATE_SUB(CURDATE(), INTERVAL 1 DAY), ‘%Y-%m-%d 23:59:59’)SELECT DATE

2022-11-16 11:01:59 2715 1

原创【问题记录】TypeError: Only valid with DatetimeIndex, TimedeltaIndex or PeriodIndex, but got an instance o

在 resample 前面加上 if 判断即可。TypeError: Only valid with DatetimeIndex, TimedeltaIndex or PeriodIndex, but got an instance of 'Index'

2022-11-14 18:01:55 1470

原创 2023 秋招数据分析笔试题技术卷

优点：（1) 通过模型可以为所要考虑的问题提供一个参考轮廓,指出不能直接看出的结果（2）．花节省时间和费用.（3）．模型使人们可以根据过去和现在的信息进行预测,可用于教育训练,训练人们看到他们决策的结果,而不必作出实际的决策.（ 4）．数学模型有能力揭示一个问题的抽象概念,从而能更简明地揭示出问题的本质.（5）．数学模型便于利用计算机处理一个模型的主要变量和因素,并易于了解一个变量对其他变量的影响.{{2,4},{5,1}、{{12,8},{11,7},{45,5}}和{(65,22),{100,55}}

2022-10-11 10:12:16 990

原创【openfoam】decomposepar: error while loading shared libraries: libmetisDecomp.so

使用 decomposepar 命令报错接着使用 rheoHeatFoam 也报了类似的错误一起解决!

2022-10-08 15:10:27 842

原创 2023秋招nlp笔试题-太初

浮点数的取值范围由阶码的位数决定,而浮点数的精度由尾数的位数决定。

2022-10-01 21:11:39 2057

原创 2022 秋招数据分析问题笔试题记录

深度优先搜索二叉树是先访问根结点，然后遍历左子树接着是遍历右子树，因此我们可以利用堆栈的先进后出的特点，现将右子树压栈，再将左子树压栈，这样左子树就位于栈顶，可以保证结点的左子树先与右子树被遍历。广度优先搜索(Breadth First Search)(其实是二叉树的层次遍历),又叫宽度优先搜索或横向优先搜索，是从根结点开始沿着树的宽度搜索遍历，上面二叉树的遍历顺序为：ABCDEFG. 可以利用队列实现广度优先搜索。非码的非平凡 | ↓ 消除非主属性对码的部分函数依赖。（1）判断特征值是否相等；

2022-09-23 02:35:58 1645

原创 linux之find使用方法及问题记录-查找文件名包含某字符串并删除

想要查找 rotate 目录下面名字中包含"processor"这个字符串的文件,并且删除。注意{}前后必须都有空格。

2022-09-06 16:39:40 1128

原创【数据分析入门】python数据分析-分析建模机器学习半监督学习

半监督学习

2022-07-08 18:25:05 447

原创【数据分析入门】python数据分析-分析建模机器学习非监督学习中的关联

关联

2022-07-08 17:59:23 282

原创【数据分析入门】python数据分析-分析建模机器学习非监督学习中的聚类

聚类算法包含kmeans，DBSCAN, 图分类算法

2022-07-08 17:19:18 446

原创【数据分析入门】python数据分析-分析建模机器学习监督学习中的回归

岭回归，lasso回归通过控制参数的规模

2022-07-08 16:31:33 507

原创【数据分析入门】python数据分析-机器学习建模评估

机器学习建模评估，数据分析建模评估，数据分析模型评估

2022-07-06 17:28:52 340

原创【数据分析入门】python数据分析-分析建模机器学习

文章目录分析建模机器学习与建模监督学习分类回归非监督学习半监督学习分析建模机器学习与建模根据是否有标注分类为，有标注，无标注，部分标注根据标注是离散值还是连续值监督学习分类回归非监督学习半监督学习............

2022-07-06 17:27:30 483

原创【数据分析入门】python数据分析-分析建模机器学习监督学习中的分类

K=5如果有联合概率分布，就是生成模型，如果没有，就是判别模型对于上面的例子剪枝对于某些数据不均衡的情况，可以剪枝提升法：每个模型都是根据前一个模型训练的结果最大的影响是权重，而不是顺序![在这里插入图片描述](https://img-blog.csdnimg.cn/9679d3b8926842e1a2fe9a23c94e472b.png......

2022-07-06 17:15:02 349

原创 mac M1 brew 报错处理 tar: Error opening archive: Failed to open

mac M1 brew 报错处理 tar: Error opening archive: Failed to open

2022-05-23 17:46:22 2906

原创【数据分析入门】python数据分析-特征预处理理论

文章目录预处理基础概念特征工程数据样本采集-抽样异常值（空值）处理特征预处理特征选择代码实现预处理基础概念特征工程数据越大，数据框架越简单数据越小，数据框架越复杂如有钱人喜欢用炸弹号，连续号数据样本采集-抽样异常值（空值）处理特征预处理特征选择离职为1，其他为0代码实现......

2022-04-19 12:09:38 2524

原创【数据分析入门】python数据分析全过程梳理与代码实现

数据分析全过程梳理加python代码实现

2022-04-15 11:43:23 3486

原创【数据分析入门】python数据分析-探索性数据分析之多因子与对比分析可视化

文章目录多因子与对比分析可视化理论基础假设检验与方差检验假设检验方差检验相关系数:皮尔逊、斯皮尔曼回归:线性回归PCA与奇异值分解多因子与对比分析可视化目的：展现数据全貌理论基础假设检验与方差检验假设检验根据一定的假设条件，从样本推断总体，或者推断样本与样本之间关系的一种方法。根据样本已知的分布性质来推断整体的性质假设检验的基本思想是“小概率事件”原理，其统计推断方法是带有某种概率性质的反证法。小概率思想是指小概率事件在一次试验中基本上不会发生。反证法思想是先提出检验假设，再用适当的统计方法

2022-04-15 11:41:02 2836

原创【数据分析入门】python数据分析之探索分析与可视化之单因子与对比分析可视化

文章目录单因子与对比分析可视化集中趋势离中趋势数据分布：偏态与峰度三大分布抽样理论数据分类单属性分析异常值分析:对比分析:结构分析:分布分析:单因子与对比分析可视化集中趋势均值：平均数，统计学术语，是表示一组数据集中趋势的量数，是指在一组数据中所有数据之和再除以这组数据的个数。它是反映数据集中趋势的一项指标。解答平均数应用题的关键在于确定“总数量”以及和总数量对应的总份数。在统计工作中，平均数（均值）和标准差是描述数据资料集中趋势和离散程度的两个最重要的测度值。中位数：中位数（Median）又

2022-04-15 11:39:33 1588

原创【数据分析入门】python数据分析之数据获取方法

文章目录数据仓库监测与抓取填写、日志、埋点计算数据仓库将所有业务数据经汇总处理，构成数据仓库1.全部事实的记录2.部分维度与数据的整理（数据集市-DM）数据库VS 仓库数据库面向业务存储，仓库面向主题存储(主题:较高层次上对分析对象数据的一个完整并且一致的描述)数据库针对应用(OLTP)，仓库针对分析(OLAP)数据库组织规范，仓库可能冗余，相对变化大，数据量大监测与抓取直接解析网页、接口、文件的信息Python常用工具:urllib、urllib2、requests、scrapyP

2022-04-15 11:36:21 3295

原创【数学分析入门】R语言之主成分分析与因子分析的代码实现

降维分析方法主成分分析主成分分析，PrincipalComponentAnalvsis，也简称为PCA，是一种数据降维技巧，它能将大量相关变量转化为一组很少的不相关变量，这些无关的变量称为主成分。主成分其实是对原始变量重新进行线性组合将原先众多具有一定相关性的指标，重新组合为一组的新的相互独立的综合指标。主成分分析与因子分析步骤1、数据预处理;2、选择分析模型;3、判断要选择的主成分/因子数目;4、选择主成分/因子;5、旋转主成分/因子;6、解释结果;7、计算主成分或因子得分。这步也是可

2022-04-11 12:26:28 3660

原创【数据分析入门】R语言之广义线性回归与logistics回归

广义线性回归?glmdata(breslow.dat, package="robust") names(breslow.dat)summary(breslow.dat[c(6，7，8，10)])attach(breslow.dat) > fit <-glm(sumY ~ Base + Age + Trt,data=breslow.dat, family=poisson(link="log")) > summary(fit)coef(fit)exp(coef(fi

2022-04-11 11:50:15 706

原创【数据分析入门】R语言给定置信度水平及效应值的情况下计算所需样本量

功效分析功效分析，power analysis，可以帮助在给定置信度的情况下，判断检测到给定效应值时所需的样本量。反过来，它也可以在给定置信度水平情况下，计算在某样本量内能检测到给定效应值的概率。功效分析理论基础1、样本大小指的是实验设计中每种条件/组中观测的数目。2、显著性水平(也称为alpha)由l型错误的概率来定义。也可以把它看做是发现效应不发生的概率。3、功效通过减去1I型错误的概率来定义。我们可以把它看做是真实效应发生的概率。4、效应值指的是在备择或研究假设下效应的量。效应值的表达式依

2022-04-11 10:55:47 2266

原创【数据分析入门】R语言入门之方差分析及应用实例

方差分析library(multcomp)attach(cholesterol)table(trt)aggregate(response,by=list(trt),FUN=mean) ##aggregate(response,by=list(trt),FUN=sd)fit <- aov(response=trt,data =cholesterol ) summary(fit)fit.lm <- lm(response=trt,data=cholesterol)fit.lmsu

2022-04-11 10:40:34 1624

原创【数学分析入门】R语言一元以及多元线性回归及诊断

文章目录1 一元线性回归2 多元线性回归当各变量独立时当各变量不独立时当变量太多，组合太多时AIC比较法徒步回归法(Backward stepwise selection)全回归法3 回归诊断1 一元线性回归fit <- lm(weight~height,data=women) summary.lm(fit)fitcoefficients(fit)confint(fit)confint(fit,level=0.5)fitted(fit)residuals(fit

2022-04-08 13:15:34 542

空空如也

空空如也