![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据
超级酷乐猫
让天下没有难学的知识
展开
-
数据治理总结归纳
以实现数据价值为目标,驱动数据全链路运营过程,通过数据红利反向推动业务部门注重数据治理和整合,组织建立全行数据质量治理和管理体系,为精准营销、智能风控、智慧经营和监管合规赋能,推进金融创新与科技、数据的深度融合,为全行数字化转型做好数据支撑。原创 2023-07-21 15:47:49 · 161 阅读 · 0 评论 -
数字化转型一往无前
智能中台:提供模型开发,模型训练,模型部署,服务编排,服务发布,智能文档(智能质检(SBERT+余弦相似度),文本纠错,文档对比,文档管理),智能问答(问答机器人,标准问,相似问),舆情分析,OCR识别(easyocr+正则表达式)。一站式研发工作站(devops):管理者可以在上边进行需求的管理计划的制定,项目进度的监控,管理驾驶舱,技术人员可以在平台上进行代码的开发,应用镜像的构建等等,该平台集成了很多的其他平台,包括代码管理平台,测试管理平台,云平台等等。原创 2022-12-30 16:56:09 · 172 阅读 · 0 评论 -
python+sklearn
分类:识别某个对象属于哪个类别,常用的算法有:SVM(支持向量机)、nearest neighbors(最近邻)、random forest(随机森林),常见的应用有:垃圾邮件识别、图像识别。回归:预测与对象相关联的连续值属性,常见的算法有:SVR(支持向量机)、 ridge regression(岭回归)、Lasso,常见的应用有:药物反应,预测股价。聚类:将相似对象自动分组,常用的算法有:k-Means、 spectral clustering、mean-shift,常见的应用有:客户细分,分组原创 2021-12-21 09:25:01 · 440 阅读 · 0 评论 -
如何运用python多线程threading实现程序的并发
每次技术的进步都是面对问题解决问题,有了现实中需要解决的问题了我们才能想各种方法解决他也就成就了技术的跃迁。原创 2022-09-05 11:01:08 · 462 阅读 · 0 评论 -
项目流程及设计
IT项目生命周期管理原创 2022-08-05 14:51:22 · 1217 阅读 · 0 评论 -
如何自己创建数据库的Linux客户端
一、背景 当前有一些数据库只有Windows版的客户端,我们可以在windows客户端中开发存储过程建表等等都很方便,但是涉及到自动化调度这一块就不是很方便了,需要自己设计开发一个Linux版的数据库客户端方便调度脚本的开发,提质增效。二、思路1.调用存储过程的jar包 咱们首先要在java程序中开发可以调用存储过程的jar包,这个jar包可以是单一应用也可以通过maven的方式构建,通过数据库提供的JDBC连接完成调用存储过程的开发,最后形成一个jar包。2.shell或者py原创 2022-07-13 14:41:14 · 562 阅读 · 0 评论 -
你了解的数据湖
数据湖: 1.数据存储能力 2.海量任意类型的数据 3.原始数据(业务数据的副本) 4.数据管理能力(元数据管理) 5.具备多样化的分析能力 6.具备数据生命周期管理能力 7.具备完善的数据获取和数据发布能力...原创 2022-01-27 09:56:40 · 1002 阅读 · 0 评论 -
数据库建表效率为王
目的你有没有在做项目的过程遇到这样的困难,上游给了你好多好多的接口,你要在系统中创建表会很麻烦,没错就是你此刻所想的,根据Excel自动生成建表语句。方法一、工具咱们通过python开发一个根据Excel自动生成建表语句的程序,用到的模块包是xlrd、ConfigParser.二、过程(1)我们可以将需要读取的Excel文件,生成的最终的建表语句的文档配置在配置文件conf.ini中。(2)利用xlrd模块包,读取Excel中的各个列包括表名、英文名、数据类型、长度等等,将这些列拼接成建表语句原创 2020-11-04 10:33:48 · 311 阅读 · 2 评论 -
数据库中表数据备份
目的在所有的数据仓库类项目中几乎都会涉及到数据库中表数据备份的操作,主要是为了对一些结果数据进行备份,防止误操作。过程一、背景本次我们用的方法是通过在数据库中建立一个备份用户进行数据备份的操作,原因是现在的数据库一般是基于HDFS开发的数据库,这种数据库是采用最新的分布式存储的方式,数据都有备份节点所以不用担心整个数据库中数据丢失的问题。二、方法我们可以通过写java程序利用JDBC连接到数据库的备份用户(1)先用sql语句查询数据库中的系统表将所有的需要备份的表查询出来(2)通过循环这些表原创 2020-11-03 16:53:47 · 2483 阅读 · 1 评论 -
control-m的自动生成xml实现
目的在我的第一篇的博客中咱们已经讲到了整个新项目的开发流程思路,其中有用到的control-m的调度工具,由于control-m调度工具不支持通过Excel添加触发依赖的方式修改,只能通过修改xml文件才能实现上线,这里就有一个问题是如果第一次上线的时候有好多好多的作业需要上的话通过xml配置的方式会显的很麻烦,为了解决这一痛点咱们需要自己开发一个根据control-m特性结合excel自动生成一个全新的xml文件的程序。方法在这个程序中咱们用到的工具有:python,python模块包xlrd,Ex原创 2020-10-27 11:00:36 · 1855 阅读 · 3 评论 -
如何进行数据文件的传输(不简单)
前期提要在我的上一篇博客的结尾我给大家留了一个问题,就是作为一个下游系统如何进行数据文件和控制文件的传输数据操作,相信很多做个etl的同学都会,在这里我讲一下我们项目中我的设计思想。本章重点我们项目中需要的数据文件是需要从ODS系统或者源系统进行下发的,中间用到的传输工具就是东方通,这个工具可以把数据文件从ODS系统或者源系统传送数据文件到东方通服务器上然后将数据文件转发到我们的etl服务器上,以上这些不需要我们考虑太多,我们需要想的是数据文件到我们的服务器上的一个特定路径下了我们怎么把这些数据文件准原创 2020-10-25 17:22:51 · 913 阅读 · 0 评论 -
清晰的数据仓库ETL流程(有干货)
数据仓库ETL流程整体思路具体步骤总结整体思路要想开发一个完整的数据仓库etl流程必须先从整个项目的结构层次入手,逐个剖析每一层的程序,在纸上画出整个的流程图,剩下的就自然而然攻克了,下面请看具体的步骤。具体步骤拿我们现在正在开发的项目为例,1.首先是工具,我们整个项目数据库用的是行云数据库,ETL工具用的是control-m,后台我用的是python语言开发的整个的流程,操作数据库是通过java程序通过jdbc连接行云数据库(此处是因为行云数据库只能通过Java程序jdbc驱动连接,一般的数据库原创 2020-10-22 20:25:25 · 4854 阅读 · 0 评论