- 博客(51)
- 资源 (7)
- 收藏
- 关注
原创 SQL的时间格式和文本灵活转换
日期的格式,在日常的数据分析中,常常使用特别是在按照日、月、年进行汇总分析,使用起来,往往会有差异如果格式比较复杂,可以考虑进行文本转化的处理。
2024-07-07 18:42:25 963
原创 数据分析篇-数据认知分析
数据认知分析,实际是对数据的整体结构和分布特征进行分析,是对整个数据外在的认识,也是数据分析的第一步。对于数据认知的分析,一般会考虑分散性、位置特性、变量的相关性等,一般会考虑平均数、方差、极差、峰度和偏度等基础统计量。数据认知的过程实际是快速从数据中抽取信息的过程。
2023-10-06 18:08:17 1164
原创 笛卡尔积文本的python处理
一开始我想在Excel做简单的复制粘贴草草了事,但是实际的数据量要比例子里的还要多很多倍,而且很可能手工处理粘贴处理错误,所以考虑下还是做特殊的自动化处理比较妥当。当然如果数据量比较大,也可以考虑将步骤3的函数做代码处理,一步生成对应的Excel报表,由于数据量还算适中,因此没有做这么复杂。导出Excel的数据截图长这个样子,考虑怎么简单怎么来,标黄的部分为表头,没有定义标题,默认为0和1。其中文本里的变量有一个取值范围,这个范围只有用户提供的时刻才知道有多少范围,大致的变量是这样。
2023-08-06 17:27:05 318
原创 常用EXCEl数据分析函数
Excel本身带有的数据透视、图片透视,可以针对短期静态和少量的数据做可视化以及结构化的展示,进行数据快速分析和总结,帮助讨论人员做辅助决策的数据参考;Excel作为日常办公最常用的软件,使用和操作的功能是不可忽略的,不能说Excel是万能的,但是没有Excel,日常很多工作的开展是很困难的。:Excel有一些VBA的宏编程能力,也可以自己做一些提效的小程序,这对于一些非编程小伙伴有一定的门槛,如果有这种诉求的也可以自学。文本处理函数,可以帮助我们做数据的文本快速提取和信息组合,主要的提取场景参考如下。
2023-06-27 22:14:33 390
原创 算法概述基础
一 算法概述算法含义:是求解问题的计算规则集,每天规则都执行某种计算。它旨在根据精确定义的指令,为任何有效的输入产生对应有效的输出结果英语词典含义:算法是由无歧义指令构成的有限集合,它在给定的一组初始条件下按预订顺序执行,知道满足给定的可识别的结束条件,以实现某种目的** 算法的五个重要特征:**有穷性(Finiteness):算法的有穷性是指算法必须能在执行有限个步骤之后终止确切性(Definiteness):算法的每一步骤必须有确切的定义输入(Input):一个算法有0个或多个输入,以刻画
2022-05-22 17:42:41 914
原创 笛卡尔在Excel中的连接使用
一 背景使用说明 这里笛卡尔是笛卡尔乘积的简称,是指两个值集的所有可能排列组合,在科普中的定义为:两个集合X和Y的笛卡尔积(Cartesian product),又称直积,表示为X × Y,第一个对象是X的成员而第二个对象是Y的所有可能有序对的其中一个成员。使用场景举例:A(1,2,3),B(a,b),A和B的所有可能组合为(a1,a2,a3,b1,b2,b3),在SQL中可以理解为是两个物理表的连接,在此基础上增加两列;如果有主键的关联,会自动根据主键去重,减少不必要的组合场景。偶然没有带电脑,使用
2022-03-13 10:04:19 3731
原创 Python操作Excel-路径相关
使用Excel,存在一些基础重复性的操作工作,这些在日常工作可能会浪费很多的时间,通过python,可实现一些基础的操作,帮助日常办公高效操作Excel,主要梳理如下:1.基础包:Pathlib:操作工作簿的路径基础包Xlwings:操作Excel工作簿的基础包Pandas:读写相关操作2.涉及到的操作查看路径/移动路径新建工作簿打开已有工作簿重命名工作簿转化工作簿格式拆分工作簿合并工作簿加密工作簿3 关键代码3.1 移动工作簿路径说明:只能在同一个盘幅内移动'''
2022-02-05 11:47:17 3665 1
原创 相关性的可视化展示python
一 操作说明使用Python可求取对应数据的相关性,两列数据之间的相关性系数的展示并不直观如果进行图形化的展示,可以帮助使用者更好理解当前的数据使用python的画图matplotlib的工具包和seaborn的工具使用sklearn的鸢尾花数据进行数据演示二 代码展示通常情况下展示的两列关系散点图(手工,不直观):# 引入工具包from sklearn.datasets import load_irisfrom sklearn.decomposition import PCAimpor
2021-10-06 18:00:04 4558
原创 PCA分析法的python主要代码
一 PCA分析法介绍可以理解为是一种降维的思想,将M列数据降维成对应的N列数据,用主要的几个字段解释整体方差变异也可以理解为一种低维度的映射,举例将三维的数据找到一个二维映射面,同时可以尽力解释出较多的信息来举例如下图所示:二 PCA分析法的基础步骤1.对数据求平均值,即求取对应的均值u=E(X)2.对特征数据进行去中心化处理,即X= X-E(X)=X-u3.对去中心化处理的特征矩阵求取协方差矩阵COV(X)4.对协方差矩阵求特征根和特征向量numta1,namuta2,numta3…及对
2021-10-06 16:44:59 19329
原创 数据库改善性能要点
数据库资源在数据不断积累与多程序执行场景,经常会出现系统性能下降甚至应用滞缓的问题,给用户直观的体验是,保存或者查询的时刻,会变得非常卡顿,这会造成不良的使用体验。就基于基础的sql知识,总结有关性能优化的要点。1.硬件要求:SQL会有一定的硬件要求,在研究数据库系统时,使用任何的服务器,都需要对当前数据库与服务器的硬件要求有一定的了解,遵循相关的硬件建议,保证系统可以正常运转。一般来说,关键的生产DBMS会运行在自己的专用服务器上。2.数据库的配置:数据库的的一系列默认配置一般都是预先配置的,这些配置
2021-08-22 17:21:47 358
原创 系统常用的通信对接方式
一 基础介绍跨系统对接,会根据实际的技术现状,业务需求和系统要求,来设置对应接口对接的方式。使用哪种方式进行系统间的接口对接,需要考虑的问题有:系统的耦合性;技术能力与开发成本;对接的数据格式要求;数据延迟和更新频率的要求;远程通信涉及到同步和异步的问题;系统的可靠性与对接有效性系统之间接口对接的方式主要有以下几种:方式一:ftp/文件共享服务器方式方式二:Socket方式方式三:数据库共享方式方式四:message方式二 常用接口对接方式2.1 ftp/文件共享服务器方式方式说明: 系
2021-07-18 23:52:18 10171 1
原创 日期杂类问题总结
日常应用程序不实用日期和时间格式存储数据,但往往会存在使用日期读取、统计和处理的场景。日期的处理和时间的换算是本次主要议题。一 常用MySQL的日期时间处理函数函数说明AddDate()增加一个日期(天,周等)AddTime()增加一个时间(时,分等)CurDate()返回当前日期CurTime()返回当前时间Date()返回时间的日期部分DateDiff()计算日期只差Date_Add()日期运算函数Date_Formate(
2021-04-24 22:26:01 252
原创 分类与预测模型算法评价
使用分类算法或者预测算法进行模型建立,往往是通过训练集来调整模型的参数,在准确率比较小的时候,认为模型是合理的,然而如果只是使用测试的数据,而没有一组实际没有参与过的预测模型的数据集,很难对预测的模型效果进行比较。因此需要通过实际的测试集来评价模型的效果,这里有很多的评价指标,仅作为梳理衡量。1.绝对误差和相对误差绝对误差与相对误差是最实际直观的展现方式绝对误差:即实际值与预测值的差的结果相对误差:即实际值与预测值差占实际值的比例绝对误差的公式可写成(其中Y为实际值,为预测值):相对误差的公式
2021-03-14 18:24:01 3355
原创 使用MySql正则表达式的方法
正则表达式是用来匹配文本的特殊的字符串,是一种特殊的语言。在SQL中使用正则表达式可以快速将一个模式与一个文本串进行比较,完成文本的匹配。这里仅总结常使用的正则表达式。1.MySql使用正则表达式的基本语法从一个简单的例子开始,检索,检索列n_name包含文本100的所有行,语法如下:举例:Select n_name from product where n_name regexp ‘100’ order by n_name;上述语法可以看出,sql语法中,使用使用正则表达式,关键字为”regexp
2021-02-28 23:20:01 554
原创 离群点检测梳理
一 理解描述: 离群点检测,是发现于大部分其他对象显著不同的对象。大部分分析都会把这些差异信息丢弃,然而在一些场景中,这些数据可能存在巨大的价值应用范围: 诈骗检测;贷款审批;电子商务;网络入侵;天气预报等领域二 离群点成因及类型成因: 数据取值来源不同;自然变异造成;数据测量不准;收集误差离群点的类型:分类标准分类标准分类描述数据范围全局离群点和局部离群点离群特征是从局部和总体来看的,可用二维坐标分布图显示数据类型数值型类群点和分类型离群点根据数据集的属性
2021-01-23 23:18:17 1574
原创 数据的探索性分析
一 异常值的分析1. 简单统计量分析:极差,最大值,最小值2. 3σ原则如果数据服从正态分布,在3σ原则下,异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值。如果数据不服从正态分布,也可以用标准差作为σ来进行倍数描述3. 箱型图分析在箱型图中,异常值被定义为小于QL-1.5IQR或大于QU+1.5IQR的值QL:下四分位数,全部观察值中有四分之一的数据取值比它小QU:上四分位数,全部观察值中有四分之一的数据取值比它大IQR:是上四分位数和下四分位数之差,其间包含了全部观察值的一半
2020-11-01 17:51:14 501 1
原创 Categorical类型
一 介绍在数据中,一个列有可能会包含很多重复值,这时会对重复值进行分类。往往在使用过程中会通过unique、value_counts等函数对重复值进行唯一性的提取和重复个数的统计。而还有一类数据类型可以帮助统计对应的值和表示的键。这类数据在系统可以称为维度表,维度表包含了不同值,并将主要观测存储为引用维度的整数键。可以通过如下例子进行展示,在例子代码中,这种按照整数展现的方式被称为分类或者字典编码展现。不同值的数组可以被称为数据的类别、字典或者层级。import numpy as npimport
2020-06-27 14:21:52 8204
原创 Python的文件读取与写入
访问数据往往是使用各种分析工具的第一步,数据文件与数据格式常常有很多种,通过python对数据文件的访问包括对文件的读取和写入,主要总结数据形式包括常用的txt,csv,json格式,Excel格式。Python的文件读取与写入1 读写txt文本1.1 读取txt文件1.2 写入txt2 读写csv文件2.1 读取csv文件2.2 写入csv3 读写json格式数据3.1 读取字符串3.2 转换为字符串4 读写Excel数据4.1 读取excel4.2 写入Excel1 读写txt文本1.1 读取t
2020-05-30 20:41:12 1078
原创 指针的总结
从指针的基本概念可以理解,在计算机中,数据是存储在计算机的存储单元中,每个存储单元都有一个编号,指针就是对应着存储单元的编号,根据指针就可以找到也就是数据存储的地址。1 指针的类型指针的类型是指针本身所具有的类型,一般去掉指针变量名,就是指针的类型。int*p;//指针的类型是int*char*p;//指针的类型是char*int(*p)[3];//指针的类型是int(*)[3]...
2020-04-30 19:41:00 380
原创 Python时间数据类型
目录1 datetime基本知识点1.1 存储精细度1.2 计算时间差1.3 加减求另一个时间2 日期与字符串的转换2.1 时间类型转为字符串2.2 字符串转为时间数据类型时间类型数据在生活中非常常见,经济、金融、物理等方面都会使用到,在观测数据过程中,对于时间序列数据常常使用的有三种:时间戳 :具体的时刻时间间隔 :由开始和结束的时间戳表示固定的时间区间 :比如说2020年一整年Pyt...
2020-03-31 20:57:06 8171
原创 Endnote使用中的问题总结
使用Endnote过程中遇到两个问题:如何批量录入,加载项每次需打开重新加载,针对以上两个问题,进行学习中的总结一 批量录入Endnote在使用谷歌学术引用文献时,录入的参考文献都是一条一条的,如果有大量的文献需要导入,就要求重复通过Endnote导入,非常不方便。通过实际的实践,有两种方法。1.1 简单批量录入的方法适用性: 适合文献量10个左右,方法比较简单方法: 将谷歌学术导出的...
2020-02-16 11:28:49 5840
原创 Pandas整数索引
在pandas上使用整数索引容易产生歧义,因为它和在列表、元组内构建数据结构进行索引有一点不同。1.整数索引如下代码ser = pd.Series(np.arange(3.))ser[-1]返回的结果为:Traceback (most recent call last): File "G:\soft\anaconda\install\lib\site-packages\IPyth...
2020-01-31 19:02:14 1149
原创 基于R lavaan 进行SEM分析总结
前期对SEM模型的构建以及问卷题项设计工作已经完成,本部分从问卷数据收集以及处理完成后开始分析。一理论部分1.1验证性因子分析验证性因子分析CFA的主要目的在于进行效度验证,它与探索性因子分析有所不同。探索性因子分析主要是为了找出影响观测变量的因子个数,以及各个因子和各个观测变量之间的相关程度,推断模型的内部结果。而验证性因子分析的主要是决定事前定义因子的模型拟合实际数据的能力,以试图检验...
2020-01-31 16:39:54 21633 10
原创 smartPLS入门操作学习
最近在使用使用smartPLS软件进行实证分析,奈何在网上有关smartPLS的入门综合学习的帖子实在是少之又少,学习不系统,一路走来,心中不免感慨良多,针对自己在学习中的过程,做一个简单的入门总结。1. SmartPLS介绍1.1 smartPLS是什么smartPLS是一款用于偏最小二乘法进行结构方程建模的统计分析软件,非常灵活好用,一般应用在管理学、组织行为学以及信息系统等领域。...
2019-12-24 22:17:24 37564 7
原创 Netlogo仿真初步学习总结
Netlogo初步学习总结一 Net logo理解及获得渠道二 软件的初步了解1.初始界面2.界面频繁使用的区域三 一个仿真如何进行(前情概要)1. 仿真世界的构成2. 仿真如何推进四 实战学习—牛吃草的仿真1.项目描述2.主要代码3.界面五 我遇到的问题1 符号的问题2.go按钮的执行与tick一 Net logo理解及获得渠道1.是什么:Net logo是一个系统仿真软件,利用该软件,可以...
2019-11-11 18:37:50 19020 10
原创 梳理2 伪随机数
实际的代码中往往会使用到随机数,random函数往往具有生成随机数的功能,另外numpy.random模块在python内建的random模块基础上,可以高效生成不同概率分布下的完整样本值数组。所谓伪随机数,是由具有确定性行为的算法根据随机数生成器中的随机数种子生成的样本生成的几个常用的分布函数列表如下:1. 随机种子:seed函数1.1 随机数种子的理解理解:由上文对伪随机数的理解...
2019-11-03 18:02:17 855
原创 梳理1 Python内建数据结构
1.1元组【理解】:固定长度,不可变对象序列,逗号分隔,圆括号【元组生成】赋值方式:Tup = 2,3,4Tuple函数转化:tup = tuple([2,3,4,5])【元组的操作】元组内部可变对象的修改:+连接元组生成更长的元组元组的拆包(赋值变量进行拆包):普通拆包,嵌套拆包,*rest位置拆包【元组的方法】count方法: a.count(2)1.2列表**【理解】...
2019-10-27 15:24:55 140
原创 安装endnote和使用endnote的简单几步
一 为什么使用endnote在写论文中,不免会用到文献引用的问题。如果没有接触过endnote,粗糙的方法可以使用word里面自带的引用方式:引用——插入如下图所示,一开始觉得还挺只能,但是有很多缺点就会暴露出来。比如说如果文献特别多不同期刊切换时格式不好统一修改;后期的文献不利于管理;尾注内容还得自己添加等等。如果这个时候你已经开始烦恼这些事情,可以考虑使用endnote。至于endnote对...
2019-07-30 18:42:40 981
原创 函数式编程中常用的函数(总结)
一 函数式编程理解** 1.函数式编程的含义:**函数式编程是一种编程的基本风格,就是构建程序的结构和元素的方式。函数式编程将计算过程看做是数学函数,也就是可以使用表达式编程。在函数的代码中,函数的返回值只以来传入函数的参数,因此使用相同的参数调用2次就会得到相同的结果。如果说这段话很难理解,我觉得可以这么想,函数式编程就是一种函数,或者是一种结构,在该结构中,将函数和函数的参数都作为参...
2019-07-30 17:23:08 2624
原创 邮件合并功能:使用Excel批量生成word内容
一 功能简要介绍1.使用背景:生活中在分发成绩单、请帖、各种证书时,往往要根据excel里面的数据根据固定的word格式填入固定的内容,然后打印出来分发给对应的人,比如说要对公司内的部分员工进行表彰,员工名单有...
2019-06-30 23:12:53 25961 2
原创 多个Excel表合并成一个Excel表
一 使用说明问题描述: 往往在进行数据统计分析前,会遇到数据分在不同的表里的情况,这时候就需要将多个表的数据先放到一个表的数据里面,然后再进行分析。比如班级需要汇总每个人的信息,几十人每个人都发了个人的信息表,一个一个表的数据打开粘贴,不仅麻烦,而且还可能出错,这样的做法是最简单粗暴但是很浪费时间的。当然,如果是大批量的数据使用python或者其他语言汇总到一个表里也是可行的,如果是小批量的几百...
2019-06-30 17:38:04 105405 20
原创 求排名第n的薪水(学习中)
一 题目编写一个 SQL 查询,获取 Employee 表中第 n 高的薪水(Salary)。表的内容是如下:±—±-------+| Id | Salary |±—±-------+| 1 | 100 || 2 | 200 || 3 | 300 |±—±-------+要去从表里面筛选出第n高的薪水,如果表里的内容为空,则返回空值null,例如,当n=...
2019-06-24 21:34:53 151
原创 一种使用Python计算可达矩阵的简单方法
在进行编码前要简单介绍几个知识点:有向图,邻接矩阵,可达矩阵有向图、邻接矩阵、可达矩阵有向图现实中常常会表示从一个地点到另一个地点的路径,这样的带有从起点到终点的路线表示可以用有向图表示。如下图所示:在该图中,可以看成由地点F1到F2,以及F1到F3,F3到F2的路径。这种有向图也表示两个因素的相互影响关系,再结合上面的有向图,我们可以理解为因素F1对因素F2有影响,对F3也有影响,因...
2019-03-31 18:08:42 12340 12
原创 pandas读取csv文件
1.导入的包:import pandas as pdimport numpy as np2.读取文件我主要使用的是CSV文件格式,内容为如下:将数据加入到指定路径中,然后进行读文件:def read_csv(path): f = open(path, encoding='utf-8') read_data = pd.read_csv(f) # print(r...
2019-03-04 15:49:56 809
原创 MySql提取重复邮件
题目大致是这样的:给了一张Person表,表的字段有Id和邮件名称Email,然后从表里面找出重复的邮件。原表是:±—±--------+| Id | Email |±—±--------+| 1 | a@b.com || 2 | c@d.com || 3 | a@b.com |±—±--------+通过Mysql查询语句可以的到的重复表结果为:±--------...
2019-02-07 11:50:58 225
原创 数据库:筛选出Employee工资高于Manager工资的人员(Mysql)
原题目是这样的:±—±------±-------±----------+| Id | Name | Salary | ManagerId |±—±------±-------±----------+| 1 | Joe | 70000 | 3 || 2 | Henry | 80000 | 4 || 3 | Sam | 60000 ...
2019-02-02 18:53:07 10096 5
原创 数据库表的连接
数据库中往往涉及到两个数据表的连接进行查询,查询的过程中有很多的注意技巧。首先梳理基本知识,然后进行分析不同的连接。一 笛卡尔积笛卡尔积常常在数学中用于两个集合的运算,集合X和集合Y的笛卡尔积运算表示为:X×Y,当两个集合进行笛卡尔积运算时,运算的结果为两个集合元素所有可能的组合。例如集合A={a, b},集合B={0, 1, 2},则两个集合的笛卡尔积为{(a, 0), (a, 1), (...
2019-01-20 13:35:13 388
EndnoteX9文献编辑软件部分
2019-01-05
EndnoteX9文献编辑软件破解部分
2019-01-05
clementine数据挖掘方法与应用配套数据
2018-11-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人