自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 在Kettle的Java脚本中修改字段类型

查了很久的文档,终于试出了一种能成功修改字段类型的方法。

2022-07-27 10:47:10 580 1

原创 自用MySQL5.7中的正则表达式替换函数regxp_replace_all

本函数为自用函数,效率不高,还有BUG,请别盲目使用或修改后再使用。

2022-06-09 10:53:08 4247

原创 笔记:部署Sharding-Proxy4.1.1时遇到的坑(持续更新中。。。)

这里列出来的只是我这个系统环境下遇到的问题,以及解决办法,不一定适用于所有人的情况。

2022-05-07 00:56:59 2373

原创 Pandas中,read_excel()函数的坑

Pandas中,read_excel()函数的坑问题描述今天在处理国家数据的时候,莫名其妙多出来很多国家为空值的数据,不知道哪来的。在一步步print筛查后,终于发现是read_excel()函数的问题。如图所示:查资料我查了查官方文档是read_excel()函数,把国家代码NA(纳米比亚)自动转义成pd.nan了。解决办法根据官方文档,加上参数keep_default_na问题暂时解决。pd.read_excel(xlsx_path, keep_default_na=False)

2022-04-20 17:48:35 1155

原创 华为外包数据库面试问题分享20211225

你在华为工作经验是什么样的。介绍一下你最近的工作经历。(具体的项目内容)你从哪一年开始做这样的工作的。(指的是数据清洗)用过哪些ETL方面的商用工具。数据库方面做过哪些,例如安装部署、开发支持、运维、调优?SQL调优这块你是怎么在做的。数仓的东西了解多少。数据库开发支持这方面你做过哪些。你现在的工作中的SQL开发,具体是作了哪些。你的工作意愿是哪个方向(这么问是因为知道了我没做过DBA)在数仓的设计中,我们一般都采用的是反范式的方式,你知道其中的原因吗?在数仓模型的分层里,有一个贴源.

2021-12-25 16:04:22 1565

原创 [试错题库]中国政企网络安全服务上岗证

这里写自定义目录标题写在前面判断题正确单选题错误单选题正确多选题错误多选题写在前面我在网上搜题目时,发现很多人把错的答案都发上去了,并且没有标注出来。不知是不是答案有变化还是在坑人。我的答案如果有错,还请在评论区说一声。我的错题也在这里面,每种题目的格式都不一样。若你把错题答案当作正确的填进去了,我也没什么办法了。判断题(T代表正确,F代表错误)F 项目TD是项目网络安全管理的第一责任人,项目组在任命时要明确网络安全管理职责,负责网络安全管理措施在本项目组的执行,组织网络安全现场培训。F 接

2021-11-23 14:45:31 31244 6

原创 [试错题库]中国政企ASP服务规范性考试

这里写自定义目录标题写在前面判断题正确单选题错误单选题正确多选题错误多选题写在前面我在网上搜题目时,发现很多人把错的答案都发上去了,并且没有标注出来。不知是不是答案有变化还是在坑人。我的答案如果有错,还请在评论区说一声。我的错题也在这里面,每种题目的格式都不一样。若你把错题答案当作正确的填进去了,我也没什么办法了。判断题(T代表正确,F代表错误)F 中小项目管理流程要求合同信息发布后10个自然日内在ISDP系统中完成“预计开工时间”及“预计验收时间”。T 重点网络客户,客户问题未彻底解决,但

2021-11-22 16:05:59 21335 2

原创 ETL项目中变更表如何转换为拉链表

打分

2020-05-19 20:13:09 500

原创 中英文字符的映射(TRANSLATE函数的运用)

这次想简单介绍一下最近的数据清洗的工作中的发现的一些小方法,因为在网上搜了一下,并没发现有人总结过。最近处理的数据是多个不同部门的人工录入的数据,莫名其妙的问题非常多。其中一个就是中英文符号的问题,我发现大部分的中英文符号存在以下关系(代码是Python代码)有几个字符还显示不出来=。=需要注意的是,最后几行例子并不是对应的。但是句号和顿号我感觉还是列出来比较好。以前我都是使用的replace来做,现在看来非常的扯淡,代码完全没有任何美感了。因为涉及到的符号比较多......

2019-10-24 18:53:07 839

原创 [My Own Wheels]Python3中的自由“import”

下面的旧内容不用看了,问了AI,有更轻松的办法。

2019-06-21 19:14:48 439

原创 缅怀Chester Bennington——Linkin Park

虽然不是骨灰级歌迷,但也是从高中起就开始听他们的歌了,听不到他们的新歌,等于缺失了一段生活。

2017-07-24 09:22:17 283

转载 [My Own Wheels]Python每天特定时间执行任务

有这方面需求,但是在网上找了半天没有每天特定时间执行任务的相关的包 就参考这位大神的代码写了一个 http://blog.csdn.net/whiterbear/article/details/50232637# -*- 定时任务

2017-07-20 16:07:54 7424 1

原创 [My Own Wheels]含有合并单元格的html读取代码

含有合并单元格的html读取代码

2017-07-20 09:36:03 2107

原创 关于pandas中,to_csv函数输出的utf8数据用Excel打开是乱码

正确答案来自于http://blog.csdn.net/glory1234work2115/article/details/53913951df.to_csv(“df.csv”, encoding=’utf8’) 这个问题困扰我蛮久了,首先是找到了问题的根源,文件开头没有BOM。 要正确打开的话,方法是用Notepad++或者Excel =>数据 =>来自文件,麻烦!用Notepad的话,列数多

2017-07-18 14:09:41 32237 12

原创 Pandas中用with结构与MySQL数据库交互

Python中,with可以让代码更简练,若产生异常,清理工作更简单Pandas中使用to_sql和read_sql数据库进行数据交换,一般的代码中,我们都要先建立连接connect,然后使用to_sql或者read_sql。为了防止异常中断整个程序,往往使用try语句保证程序正常运行。如果追求更加Pythonic的代码,可以用with结构来使代码更加精简 我最初模仿with open as 的结

2017-07-13 14:59:41 916

原创 Pandas中,一组数据中,分离出已有数据和新数据

我这边的有一组新数据和一组旧数据new,old用Pandas可以快速将new中已存在于old的数据分离出来b = new.isin(old)[数据所在列名] # 判断哪些地块已经存在于数据库existed_data = new[b==True] # 已存在的数据new_data = new[b==False] # 不存在的新数据举例如下:新数据newOut[111]: a b0

2017-07-12 18:05:03 842 1

原创 关于pandas中update的报错cannot reindex from a duplicate axis

接触pandas没多久,没有系统的学习过,在学习matlablib的时候就一直对axis表示懵逼。现在用pandas了的时候又到这个词,本来以为是我的Dataframe中列标题有重复,找了一阵没发现原因,而且感觉列标题重复跟update应该也不会冲突。 找了半天原来是行标题重复,是我自己对业务的数据源理解不清,以为每行数据的地块名称不会重复的。 我现在要做的是把一个Dataframe中的

2017-07-12 11:07:49 25486

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除