自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 GP查询并删除重复数据问题

在数据库中做增删查改时,难免会因为误操作导致数据库中存在一些重复数据,那么如何定位这些重复数据并且删除呢?本文将介绍在Greenplum数据库中如何实现查询并删除重复数据的方法。

2022-08-19 13:47:52 3031 1

原创 pyecharts输出可视化大屏的一些常见问题及处理方法(颜色处理、overlap等)

本人最近在学习利用pyecharts生成可视化大屏,但是发现目前各网站的教程基本都是照搬和修改官网的内容,可参考性较小,故以此文记录本人踩过的坑。如果内容有误,烦请指出,不胜感激。以官方demo中的折线图为例,一共有多处可以进行颜色设置,分别是标签颜色,线颜色和节点颜色,如下图:这些都是使用api:进行配置的,语句如下:其中linestyle_opts中设置的是线的颜色,而itemstyle_opts会同时设置节点和标签的颜色。但是有些时候我们不希望节点和标签的颜色都一致,那么有一种解决办法就是设置全

2022-07-08 14:44:57 1689

原创 python读取postgre数据库中时间格式转换问题

python提供了多种读取数据库的方法,但是时间在python中的数据类型和数据库中的数据格式不统一,所以经常需要我们在python读入数据之后手动转换数据的时间类型。本文详细介绍了几种数据转换的方法和需要注意的问题。...

2022-06-27 16:56:31 1576

原创 plpgsql语言中left outer join的语法问题

在plpgsql语言中使用left outer join 和 right outer join的格式有一些区别,得到的结果相同。right outer join问题分析可以看到两种语法虽然得到的结果相同,但是乍一眼一看实现的逻辑是不同的。从表面上看left outer join要比right outer join 外层多执行一次select语句。但实际上两种方式是相同的,这是受格式原因误导了。right outer join:表面上很容易被误解为:right outer join但是其实这不是

2022-06-27 10:25:39 386

原创 关于Python中的空值问题

对于None、NaN、np.nan、Null、NaT的综合介绍和比较

2022-06-10 16:16:00 8567

原创 pandas中关于DataFrame数据类型超好用的方法

本文详细介绍了pandas中关于DataFrame数据类型的常用函数及其使用方法,结合了pandas给出的官方文档,佐以简单示例,万字长文助您一文搞定DataFrame相关的api调用问题。

2021-12-23 14:38:16 6444

转载 分布式系统概述

本文转载自什么是分布式系统,如何学习分布式系统本文版权归作者xybaby(博文地址:http目录正文什么是分布式系统分布式系统挑战分布式系统特性与衡量标准组件、理论、协议一个简化的架构图概念与实现总结正文虽然本人在前面也写过好几篇分布式系统相关的文章,主要包括CAP理论、分布式存储与分布式事务,但对于分布式系统,并没有一个跟清晰的概念。分布式系统涉及到很多的技术、理论与协议,很多人也说,分布式系统是“入门容易,深入难”,我之前的学习也只算是管中窥豹,只见得其中一斑。因此,一致希望能对分布式系统有一个更

2021-12-15 10:09:09 565

原创 leetcode刷题之BFS专题

参考资料:广度优先算法BFS(即广度优先搜索)是图论中一种常见的算法,常用于二叉树数据结构,能够实现对树或图中每个节点的遍历。本文将从leetcode的一些例题中详尽介绍这种算法的实现原理和在实际问题中的应用方式。一、概念原理:如其名字,BFS是从根节点开始,沿着树的宽度遍历树的节点。如果所有节点均被访问,则算法终止。结束条件:树或图中的所有节点都已被遍历。如果还存在未被遍历的节点,则选择其中一个作为源节点并重复以上过程,整个过程反复进行知道所有节点都被遍历为止。二、实现方法(利用栈)B

2021-11-17 13:45:40 2010 4

原创 Java创建数组、初始化数组格式问题(附思维导图)

背景声明数组在不同语言中有着不同的格式要求,由于作者本人每天工作学习中C++、Java、Python和go都要写,所以很容易混淆各种格式,导致程序bug,而这种bug一般很难一眼看出究竟是哪里的格式出问题导致的报错,故在此整理java声明数组的两种格式。思维导图特点数组声明后长度不可再发生变化如果在声明时不确定数组的长度,请使用数据结构ArrayList...

2021-11-16 11:06:17 858

原创 leetcode刷题之DFS专题

参考资料:深度优先搜索—wikipedia210课程表II—leetcode官方解答DFS深度优先搜索算法DFS(即深度优先搜索)是图论中一种常见的算法,常用于二叉树数据结构,能够实现对树或图中每个节点的遍历。本文将从leetcode的一些例题中详尽介绍这种算法的实现原理和在实际问题中的应用方式。一、概念原理:如其名字,DFS会尽可能深地搜索树的分支。当节点v所在边都已被探寻过,搜索将回溯到发现节点v的那条边的起始节点。结束条件:树或图中的所有节点都已被遍历。如果还存在未被遍历的节点,则选

2021-11-15 14:23:59 769

原创 leetcode刷题笔记之神奇发现

leetcode刷题笔记系列为记录本人在刷leetcode题目时遇到的问题、思考过程、归纳总结和心得体会。本文是神奇发现专栏,记录遇到的奇怪bug或者是新的思路和发现。

2021-11-04 10:16:05 163

原创 PL/pgSQL初学之路(三)

本系列为本人初学plpgsql语言的笔记,记录自己在实现算法、参考他人代码时遇到的简单语法。

2021-10-29 17:49:38 2307

原创 PostgreSQL的基础操作

PostgreSQL的基础操作参考资料:postgresql常用操作postgre系统字段侵删本人正在学习使用postgreSQL和PL/pgSQL的基本操作和语言环境等,本文会根据我的学习计划和遇到的问题而持续更新记录,仅以此文作为参考。一、控制台登录安装了postgreSQL后会自动安装一个shell控制台(SQL shell)和一个可视化的前端(pgAdmin),进入终端后需要先登录。其中只有用户口令那一栏需要填写安装时自己配置的密码,其他均打空格跳过即可。登录数据库(1)查看

2021-10-29 13:30:39 967

原创 PL/pgSQL初学之路(二)

本系列为本人初学plpgsql语言的笔记,记录自己在实现算法、参考他人代码时遇到的简单语法。

2021-10-29 13:28:41 1088

原创 PL/pgSQL初学之路(一)

本系列为本人初学plpgsql语言的笔记,记录自己在实现算法、参考他人代码时遇到的简单语法。

2021-10-26 16:55:33 1334

原创 pandas-profiling的降级之旅

标签:2021.09.28工作内容背景:做EDA分析,想要利用pandas-profling的集成工具,实现一键EDA自动化流程。而pandas-profiling是python封装好的库,能够使用DataFrame自动生成数据的详细报告并能自动生成网页进行可视化。但理想和现实总是有差距,这个过程出现了很多error,主要原因都是由pandas-profiling的版本与环境不兼容导致的,谨以此文记入这些error和解决办法供大家参考。[Pandas-profiling] ImportError: ca

2021-09-28 13:13:15 2471

原创 基于python实现TF-IDF算法

标签:2021.09.27工作内容参考资料:TF-IDF算法介绍及实现声明:本文中大量内容转载至参考资料,仅归纳整理和加入部分个人观点心得,侵删概念定义TF-IDF(term frequency-inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术,常用于挖掘文章中的关键词。特点:简单高效,用于最开始的文本数据清洗。TF-IDF(1)TF:词频可以统计到停用词,并把它们过滤,避免对结果造成影响。e.g.:“的”、“了”、“是”等等(2)ID

2021-09-28 10:59:54 10392 2

原创 基于pandas做可视化统计分析踩坑记录

基于pandas做可视化统计分析踩坑记录标签:2021/09/26工作内容参考资料:解决pandas中字段过多导致df.info()不显示详细字段信息的问题侵删目的利用pandas对于给定的数据进行可视化统计分析、类别分析以及文本分析等。由于本人pandas处理csv中出现汉字众所周知,pandas在读取csv中,如果表格中包含汉字,则会出现如下报错:这是由于在存储汉字时,文件默认按ANSI编码,但是Python3缺默认用utf-8解析,所以有了以上报错。解决办法有三种:设置encod

2021-09-26 17:40:26 516

原创 利用pandas做EDA踩坑记录

利用pandas做EDA踩坑记录参考材料:https://zhuanlan.zhihu.com/p/49035741添加链接描述最近在自己学习如何基于python做EDA分析,但由于本人对于Pandas库并不熟悉,所以经常会出现报错和warning,在此记录下所遇到的坑,仅供学习和参考。1. 离群点数据过滤warning内容::7: UserWarning: Boolean Series key will be reindexed to match DataFrame index.data_co

2021-09-22 17:47:11 701

原创 python脚本的各种工具包

python脚本的各种工具包标签:2020.01.08 实习工作内容参考材料:https://github.com/jbardin/scp.py一、argparse模块主要作用:是python用于解析命令行参数和选项的标准模块,类似于linux中的ls指令,后面可以跟着不同的参数选项以实现不同的功能,argparse就可以解析命令行然后执行相应的操作。使用方法使用argparse配置命令行参数时需要三步:A) 创建ArgumentParser()对象B) 调用add_argument()

2021-01-14 15:20:47 397

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除