![](https://img-blog.csdnimg.cn/20190918140053667.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
数据分析
文章平均质量分 72
数据分析方面的方法整理
路过的风666
https://github.com/ThePassedWind
展开
-
机器学习面试题
数据分析面试题原创 2022-12-01 11:07:13 · 479 阅读 · 0 评论 -
概率统计面试题
数据分析的基础知识原创 2022-11-30 22:52:47 · 774 阅读 · 0 评论 -
SQL复习(2)
SQL面试题(数据分析类)原创 2022-11-29 11:22:49 · 1075 阅读 · 0 评论 -
SQL复习(1)
牛客网上的刷题记录原创 2022-11-27 16:10:19 · 542 阅读 · 0 评论 -
文本相似度指标-基于词汇的相似度量
文章目录Jaccard相似度余弦相似度Dice系数匹配系数Jaccard相似度J(A,B)J(A,B)J(A,B)表示有限样本集之间的相似程度:J(A,B)=∣A∩B∣∣A∪B∣=∣A∩B∣∣A∣+∣B∣−∣A∩B∣J(A,B)=\frac{|A∩B|}{|A∪B|}=\frac{|A∩B|}{|A|+|B|-|A∩B|}J(A,B)=∣A∪B∣∣A∩B∣=∣A∣+∣B∣−∣A∩B∣∣A∩B∣Jaccard相似度:dj(A,B)=1−J(A,B)=∣A∪B∣−∣A∩B∣∣A∪B∣=AΔB∣A∪原创 2022-04-12 17:26:46 · 704 阅读 · 0 评论 -
词嵌入向量生成
词嵌入向量生成写出每个单词的one-hot encodingimport numpy as npX = np.eye(5)words = ['quick','fox','dog','lazy','brown']for i in range(5): print(words[i],"的one-hot编码:",X[i])quick 的one-hot编码: [1. 0. 0. 0. 0.]fox 的one-hot编码: [0. 1. 0. 0. 0.]dog 的one-hot编码: [原创 2022-04-11 00:08:55 · 1563 阅读 · 0 评论 -
seaborn/matplotlib/pandas画一些简单乐图(组合图)
文章目录一些设置单簇柱形图+折线图多簇条形图多簇柱形图+折线图堆积柱形图+折线图保存图像一些设置import seaborn as snsimport matplotlib.pyplot as pltimport pandas as pdimport numpy as np%matplotlib inlineplt.rcParams['font.sans-serif'] = ['SimHei'] # 黑体plt.rcParams['axes.unicode_minus'] = False原创 2022-04-07 22:45:45 · 971 阅读 · 2 评论 -
面向多个知识图谱的实体对齐
论文笔记:[1]徐有为,张宏军,程恺,廖湘琳,张紫萱,李雷.知识图谱嵌入研究综述[J/OL].计算机工程与应用:1-25[2022-02-20].http://kns.cnki.net/kcms/detail/11.2127.TP.20220128.1648.002.html.文章目录实体对齐概述概念目标框架步骤实体对齐模型基于三元组的模型方法基于路径的模型基于图的模型实体对齐概述概念与实体消岐相反,实体对齐是针对“同义异名”的实体,即判断两个实体是否指向真实世界中的同一对象的过程。数据库领域.原创 2022-02-21 10:30:53 · 2051 阅读 · 1 评论 -
等概率整群抽样与多阶段抽样
概念等概率抽样抽样方法的一大类,指总体中的每个个体被抽中的概率相等整群抽样把总体划分为群,抽样时只需要群的抽样框,对群内所有单位进行抽样调查。优点:由于只需要群的抽样框,简化了编制抽样框的工作量缺点:估计精度较差,因为同一群内的单元比较相似,在样本量相同的情况下,抽样误差较大多阶段抽样类似整群抽样,首先抽取群,但不是调查群内的所有基本单元,而是进一步抽样,从群中选择若干个基本单元进行调查。例如,第一阶段抽取初级单元,第二阶段抽取二级单元,第三阶段抽取接受调查的基本单元就是三阶段抽原创 2022-02-12 11:34:31 · 3943 阅读 · 0 评论 -
抽样技术概述
文章目录概述基本概念目标总体与抽样总体抽样框与抽样单元总体参数与统计量抽样误差与非抽样误差几种抽样方法简单随机抽样分层抽样整群抽样多阶段抽样系统抽样概述当数据集过于庞大时,我们无法加载如此庞大的数据,为了克服这种问题,同时确保数据信息尽可能少的丢失,我们需要使用抽样技术,选取数据的一个子集去较好的表示整个数据集。基本概念目标总体与抽样总体目标总体:所有研究对象的全体,或是希望从中获取信息的总体抽样总体:从中抽取样本的总体。通常与目标总体一致,但有时对于一个目标总体,抽样总体会有不同的选择抽原创 2022-02-10 20:06:35 · 2851 阅读 · 0 评论 -
时间序列数据分析
时间序列数据分析参考知乎文章:时间序列数据分析101,作者:厉建扬除此之外还添加了分类、聚类的评估方法汇总+python实现。文章目录时间序列数据分析1 准备和处理时间序列数据1.1 准备数据集1.2 寻找时间轴1.3 可能遇到的问题1.4 清洗数据1.4.1 缺失值处理1.4.2 改变数据集时间频率1.4.3 平滑数据2 探索式分析(EDA)2.1 针对时间序列的特殊方法2.1.1 理解平稳性2.2 寻找自相关(autocorrelation)3 基于统计学的时间序列分析方法3.1 自回归模型(转载 2021-08-29 17:13:53 · 6454 阅读 · 0 评论 -
数据处理笔记-大创
SQL的模糊查询# %:表示任意0个或多个字符,中文使用%%SELET 字段 FROM 表 WHERE u_name LIKE '%111%'# _:表示任意单个字符,用来限制表达式的字符长度SELECT * FROM 表 WHERE u_name LIKE '_1__'# []:表示括号内字符中的一个# [1-7]、[a-e]:表示一系列字符SELECT * FROM 表 WHERE u_name LIKE '[hpq]1'# [^]:表示不在括号内的单个字符# [^1-6]、[^原创 2021-08-15 19:18:55 · 251 阅读 · 0 评论