自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

起早贪黑写bug

一个从事数据开发工作的菜鸡,欢迎各位同仁到访,文章有啥问题请留言指出,不慎感激

  • 博客(27)
  • 收藏
  • 关注

原创 python连接HANA/POSTGRESQL 数据库

通过python连接hana 数据库,由于hana这个在大多数企业中很少用到,所以还是在这里记录一下。

2024-04-28 15:28:24 221

原创 windows上通过定时任务提交新增文件到SVN(bat双击可执行,但是通过定时任务后无法提交到svn)

bat双击可以运行,定时任务无法运行。通过定时任务自动提交文件至SVN

2024-04-28 10:32:16 657

原创 windows系统实现postgresql数据库定时备份

定时备份、windows,postgresql

2024-04-24 11:07:50 816

原创 HANA sql 常用函数记录

想要获取@前面的就用 SUBSTR_BEFORE('1234@163','@'),想要后面的就用SUBSTR_AFTER('1234@163','@')HANA这家伙,由于比较老,而且也就国企啥的的在用,处理数据的时候吧总是说没有这个没有那个的,烦死人了。4、CLOB 超长文本类的存储,通常在建表时指定类型使用(若无法查看CLOB类型中的内容,可通过to_char()函数来查看部分内容)1、字符串分割,但是仅适用于只有一个分隔符的,例如字符串'1234@163'2、判断一个字符串中是否包含另外一个字符串。

2024-04-24 09:49:26 379 2

原创 如何通过anaconda创建第一个django项目

因为python版本用的是anaconda安装的,但是平时呢是使用viscod来玩py的,本来想创建个django的项目玩玩的,通过anacoda的powershell prompt 的插件用 pip 命令安装了django的包。但是不知道在哪里的命令行创建项目,powershell 的也试了,cmd的也试了,创建没有问题但是要是去访问页面的话会显示访问被拒绝,一只以为是防火墙的问题。菜鸟上给的教程是 python3 这个之前试过了但是没成果不知道是不是这个原因哈,但是上面的这个命令绝对是可以的。

2024-01-10 14:12:48 416

原创 python小工具-excel多sheet合并,多文件合并

python多sheet合并,excel多sheet合并,多文件合并

2023-12-07 09:35:42 551

原创 python小工具图片转文字

pyton,图片转文字,文字提取

2023-12-06 15:56:46 465

原创 python小工具-pdf转word

用python实现pdf转WORD

2023-12-05 08:46:59 365

原创 python处理CSV文件中的特殊字符

pyton3处理csv文件的特殊字符

2023-10-26 15:22:10 453

原创 通过sql查找树形组织结构所有上级 或查找所有下级

树形结构,所有上级,所有下级

2023-08-04 17:25:59 1535

原创 mysql行转列,行值转换为列名,部分列转置

在网上搜了半天的行转列,要么是用case when 的要么就是什么max if的,只能说他们这种是学习的时候遇到的几行几列的情况,可以用这种,可是我的要转的行分组之后有300多行,最终要三百多个列,难不成要写三百个case when 不成?如果只要其中一部分呢?经过我千辛万苦的寻找终于找到了解决办法,那就是用存储过程,底层原理用的是 max if ,然后用循环实现拼接。想要呢按照cname分组,然后把cource 的值作为新的列,score做为新列的值。好了,实现的效果已经在上面展示了,应该没啥问题了吧。

2023-08-03 09:51:07 599

原创 kettle表输出到PG时报错 java.sql.BatchUpdateException: Batch entry 0 INSERT INTO

java.sql.BatchUpdateException:Batch entry 0 INSERT INTO主要说的就是SQL有异常导致插入为0条。

2023-02-28 09:33:52 3802

原创 mysql分组排名,行列转换、存储过程、分组拼接等

突然发现好久没有输出了,由于前段时间换了新工作,这段时间也没有接触到新的内容所以遇到的问题比较少,最近这段时间呢,主要是用mysql+excel做数据分析,接下来呢就将这段时间遇到的问题做个记录与君共勉1.mysql排名的实现,由于mysql没有开窗函数,不能像hive那样用row_number很方便的实现...

2021-10-28 09:47:08 861

原创 求助,FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

在执行hive sql的过程中发现报错如下Ended Job = job_1617789732059_139915 with errorsError during job, obtaining debugging information...Examining task ID: task_1617789732059_139915_m_000000 (and more) from job job_1617789732059_139915Task with the most failures(4):

2021-05-02 11:06:56 227

原创 sqoop 抽数到oracle rac遇到报错 ERROR tool.ExportTool: Error during export:

前言:新接受了一个项目,项目是已经在运行的,我需要给需求方提供数据,很多问题都不清楚而且好多东西都没权限就很尴尬,在用sqoop 抽数到oracle 的时候遇到了问题集群信息:CDH-5.14.2sqoop版本:Sqoop 1.4.6-cdh5.14.2Oracle版本:oracle 11g根据对方提供的 IP 我先ping了一下,结果发现不通的因为 sqoop是要提交到yarn 上面去的,只要yarn的nodemanage节点通就可以(据大佬说的)所以把所有nodemanage的IP列出来给他们

2021-04-28 17:37:31 603

原创 用python调用百度地图API实现 地址转经纬度并计算两地之间的距离(下)

接上篇,我用的AK是浏览器端的第一段根据给出的地址返回经纬度输入地址越详细经纬度越准确import jsonfrom math import radians, cos, sin, asin, sqrt import requests #根据地址返回经纬度 def getPosition(ak, dw): url = 'http://api.map.baidu.com/geocoding/v3/?address={Address}&output=json&ak={Ak}

2021-01-15 10:49:16 1078

原创 用python调用百度地图API实现 地址转经纬度并计算两地之间的距离(上)

前言:前两个跟同事聊天得知他们有个新需求:根据用户填写的地址信息计算出以客户为中心,半径5km范围内的服务门店手上只有客户地址,门店地址。所以怎么求两个地址之间的距离就来了,回顾一下初中地理,我们可以根据两个地址间经纬度来计算两地之间的距离,所以解决思路就很清晰了,先求出地址对应的经纬度,再根据经纬度计算距离就可以啦!一、调用百度云API接口调用百度云API接口,就得先申请开发者权限具体操作步骤如下1.首先得创建百度账号 ps:基本都用百度云所以这个是现成的2.认证成为开发者(学习和练习使用的话,认证

2021-01-14 12:09:14 1483

原创 oracle实战技术点总结(随笔)

前言:之前一直都是用hive处理数据,因为项目变动要改为oracle+kettle之前写的SQL在oracle上会有很多报错比如oracle 没有split 函数等需求1:计算某个表每个月多少条占用多少空间直接运行一下语句,该语句会算出每个表占用多少存储空间select table_name,blocks*8192/1024/1024 size_m from user_tables这里的blocks大小为8byte所以乘以8192https://blog.csdn.net/haiross/art

2020-11-15 14:53:49 214

原创 hive实现多列转行

业务上遇到了一个问题,原来的列名变为现在的新列的值,原来列的值变为新的列问题模型如下而我想实现的样子是这样的其实笨一点的方法的用连表查询或者用union的方法都可以实现,但是我的实际业务列比这个多很多,而且当数据量大的时候连表效率就会很低于是去寻找了更简洁的方式实现方式如下代码如下:select a.id,b.label,b.valuefrom test0912_wkl aLATERAL VIEW explode (map(‘yuwen’, yuwen,‘shuxue’, sh

2020-09-12 14:35:10 1707 4

原创 sqoop连接oracle报错ERROR manager.SqlManager: Generic SqlManager.listDatabases() not implemented.

声明:sqoop1.4.7oracle 11g测试命令 :sqoop list-databases --connect jdbc:oracle:thin:@ip地址:1521/orcl --username scott --password tiger1.如果连接报错 ERROR sqoop.Sqoop: Got exception running Sqoop: java.lang.RuntimeException: Could not load db driver class: oracle.jdb

2020-09-10 09:35:00 1203

原创 Linux普通用户登录报错-bash-4.2$

这个报错网上有很多解决方案好久没写东西了,就简单的记录一下吧,希望能帮你 (前面一大段为废话,赶时间的老铁可以跳过)这两天在新电脑上装hadoop嘛,由于好久没搞了忘记了结果把Hadoop文件上传到了root 用户下的home/hadoop里,格式化没有成功嘛,后来发现错了就连同Hadoop 文件一起删掉了,唉事实证明还是太年轻,忘了隐藏文件这一茬了,后来打算登录重新传到普通用户目录时,普通用户登录不了,但是root 用户可以网上借鉴了一下各位前辈的经验,说是隐藏文件的问题就新建了 Hadoop

2020-08-20 23:43:37 637 1

原创 kettle导入CSV格式的文件到 mysql 数据库中文显示为问号‘?????‘问题(已解决)

记录一下最近用kettle 8.3 导入CSV格式的数据到mysql数据库中所遇到的问题,以及解决的思路,希望对遇到同样问题的老铁有所帮助。先说明一点数据在excel中是可查看的没有乱码也没有任何问题1.文件之前的分割符为 $ 入下图2.我用UE 做了分隔符替换为 ,1.新建转换过程CSV文件输入中的修改...

2020-07-16 10:31:20 3281 2

原创 数据中台VS数据仓库、业务中台

事先声明,以下内容仅供参考,有不足之处请大佬们轻喷中台这个词最近很火,各种中台层出不穷。我自己是从事大数据方面的工作,找资料查了一下数据中台和数据仓库,大数据平台有什么异同。希望一下内容能帮助小伙伴们能更好的理解数据中台这个概念1.先来说下数据中台的概念:数据中台是一套可持续“让企业的数据用起来”的机制,是一种战略选择和组织形式,是依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑,构建的一套持续不断把数据变成资产并服务于业务的机制这两个图有助于大家理解数据中台的概念2.再顺便说一

2020-06-30 16:01:58 276

原创 shell脚本报错 -bash: ./create.sh: /bin/bash^M: bad interpreter: No such file or directory

打算把写好的SQL脚本上传到linux,然后用shell脚本去调用,结果写了脚本之后发现 总是报错 -bash: ./create.sh: /bin/bash^M: bad interpreter: No such file or directory经过一番查找后终于找到了一篇博客并试了一下他的方法,是因为shell脚本是在windos 编写的脚本格式是 dos 这个可以 通过 vi 进入脚本 在命令模式下查看 :set ff因为我这个修改过来了所以fileformat=unix修改时还是在命令模

2020-06-16 16:06:56 380

原创 hive初始化失败 Underlying cause: com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException : Unknown data

今天安装hive的时执行初始化命令 schematool -dbType mysql -initSchema失败。报错如下原因找不到hive库。找了很久才发现是配置文件的问题红框中所示为连接信息,我指定了为hive 但是没有创建,修改配置文件为即可初始化成功好,初始化成功啦,希望可以帮到小伙伴吧,记得修改配置文件这种事要细心细心再细心...

2020-06-12 12:09:44 7156

原创 kettle8.3连接oracle数据库报错问题

kettle连接oracle出现Driver class ‘sun.jdbc.odbc.JdbcOdbcDriver’ could not be found, make sure th搜了很多博客说是因为kettle lib目录中没有 ojdbc的问题,于是把oracle 11g中的ojdbc8,jar放入到kettle pdi-ce-8.3.0.0-371\data-integration\lib 目录下,之后发现还是报错,但是报错已经改变为Error connecting to database: (

2020-05-25 14:12:23 2437

原创 数据仓库面试题

@[数据仓库面试问题汇总1.用hive实现交集、并集、差集交集 用inner join 就可以实现并集 union ,顺便说一下union all 和union 的区别,union 会去除重复项因此要慢一点,而union all 不会差集 left join on a.id=b.id where b.id is null2.hive 和 spark的区别这个问题也就是mr和spark的...

2020-04-17 01:01:16 1754

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除