自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

超级酷乐猫的博客

一个分享知识的平台

  • 博客(28)
  • 收藏
  • 关注

原创 清晰的数据仓库ETL流程(有干货)

数据仓库ETL流程整体思路具体步骤总结整体思路要想开发一个完整的数据仓库etl流程必须先从整个项目的结构层次入手,逐个剖析每一层的程序,在纸上画出整个的流程图,剩下的就自然而然攻克了,下面请看具体的步骤。具体步骤拿我们现在正在开发的项目为例,1.首先是工具,我们整个项目数据库用的是行云数据库,ETL工具用的是control-m,后台我用的是python语言开发的整个的流程,操作数据库是通过java程序通过jdbc连接行云数据库(此处是因为行云数据库只能通过Java程序jdbc驱动连接,一般的数据库

2020-10-22 20:25:25 4818

原创 数据治理总结归纳

以实现数据价值为目标,驱动数据全链路运营过程,通过数据红利反向推动业务部门注重数据治理和整合,组织建立全行数据质量治理和管理体系,为精准营销、智能风控、智慧经营和监管合规赋能,推进金融创新与科技、数据的深度融合,为全行数字化转型做好数据支撑。

2023-07-21 15:47:49 150

原创 如何部署属于自己的大语言模型

随着chatgpt的持续火爆,越来越多的大语言模型被开发出来,大语言模型集成到现有的应用中已是大势所趋,从零到一开发一个自研的大语言模型几乎不可能,但是随着大语言模型的快速发展,开源的大语言模型如雨后春笋般出现在市面上,我们可以通过部署这些开源的大语言模型完成公司自己的大语言模型的使用。找到专业领域的训练数据结合网上的开源大语言模型进行微调是现阶段比较好的开发公司自己的大语言模型的方式,从零到一的自研需要消耗大量的资源和金钱(小公司不建议,有钱忽略),希望这篇文章可以给您提供一点思路。

2023-04-10 16:42:31 1072

原创 gpt自动文本生成代码

文本生成模型在以后的工作和生活中会起到很大的作用,大家可以打开思路保持好奇心,不断的探索NLP自然语言处理给人类带来的无穷妙用

2023-02-28 12:06:37 1631

原创 数字化转型一往无前

智能中台:提供模型开发,模型训练,模型部署,服务编排,服务发布,智能文档(智能质检(SBERT+余弦相似度),文本纠错,文档对比,文档管理),智能问答(问答机器人,标准问,相似问),舆情分析,OCR识别(easyocr+正则表达式)。一站式研发工作站(devops):管理者可以在上边进行需求的管理计划的制定,项目进度的监控,管理驾驶舱,技术人员可以在平台上进行代码的开发,应用镜像的构建等等,该平台集成了很多的其他平台,包括代码管理平台,测试管理平台,云平台等等。

2022-12-30 16:56:09 167

原创 AI中台的快速实现

所有的中台实现都是为了沉淀共享能力、实现敏捷开发、支持前台业务的快速创新,AI中台的建立可以实现智能化的服务能力,给模型开发人员提供一个开发模型的便捷平台,该平台有各种各样的工具,每个人只需要准备自己的训练数据就可以轻松实现业务需要的各种模型。

2022-11-22 15:53:56 930

原创 python的easyocr图像文字识别

3.canny边缘检测以及boundingBox构建。1.OpenCV图像基础操作,如读取,灰度转换等。7.用pyplot查看图片,便于debug。6.形态学操作如close操作。9.easyocr库函数调用。2.阈值操作,如二值化。

2022-09-09 12:27:28 1353

原创 如何用python加NLP打造自己的智能问答机器人

(2)利用训练好的TF-IDF模型进行训练数据data0和真实数据data1的TFIDF值求解。(3)通过余弦相似度进行两者的比较找到data1和data0中的所有值的相似值。(1)利用已有的数据对 TfidfVectorizer 模型进行训练。(4)取出相似值结果中最相似值的索引,并将该索引对应的答复输出即可。我们可以参照以下流程进行智能机器人的程序设计工作,

2022-09-07 14:29:49 2095

原创 如何运用python多线程threading实现程序的并发

每次技术的进步都是面对问题解决问题,有了现实中需要解决的问题了我们才能想各种方法解决他也就成就了技术的跃迁。

2022-09-05 11:01:08 453

原创 项目流程及设计

IT项目生命周期管理

2022-08-05 14:51:22 1198

原创 如何自己创建数据库的Linux客户端

一、背景 当前有一些数据库只有Windows版的客户端,我们可以在windows客户端中开发存储过程建表等等都很方便,但是涉及到自动化调度这一块就不是很方便了,需要自己设计开发一个Linux版的数据库客户端方便调度脚本的开发,提质增效。二、思路1.调用存储过程的jar包 咱们首先要在java程序中开发可以调用存储过程的jar包,这个jar包可以是单一应用也可以通过maven的方式构建,通过数据库提供的JDBC连接完成调用存储过程的开发,最后形成一个jar包。2.shell或者py

2022-07-13 14:41:14 558

原创 vue+django进行前后端分离开发

目录 一、vue项目的创建二、Django项目的创建三、vue+django结合要解决的问题 四、总结通过vue_cli创建一个vue项目,所有的代码可以在VSCODE中编写,vue项目的各个组件的组成包括:1.components:所有的界面开发都在这个目录下编写,一个界面对应一个vue程序,通过elementUI开发能快一点且做出来的界面比较好看,具体可参考elementUI的样例进行具体组件的开发。2.assets:所有的图片都在这个这个目录下存储。3.route.js: 整个vue项目的路由,不同的

2022-07-05 14:44:56 4328

原创 管理经验总结

1.做项目之前需要列一个项目计划(需求、开发、测试、上线)2.具体任务跟踪的时候需要一个跟踪的Excel(登记日期、需求提出人、任务描述、进度、负责人等等)3.做任何事情最好养成列清单的好习惯,可以对工作有一个相对全面的了解。4.沟通的效率很重要,每个人都会说自己认为对的事,我们要定位好岗位的职责,明确交付的成果物,建立一种标准化的语言,要用标准化的模板(如果模板不行就改模板)5.注重系统能力的提升,提炼共性能力,提高自己的服务能力。6.避免做烟囱式的项目开发,注重基础平台的建设,加强基

2022-05-09 17:02:44 486

原创 pyautogui创建RPA实践

import pyautoguiimport timeimport cv2pyautogui.hotkey('winleft','d')#点击谷歌图标x,y = pyautogui.locateCenterOnScreen(image='D:/Python/jiaoyan/google.png',grayscale=False,confidence=0.7)print(x,y)pyautogui.moveTo(x,y)pyautogui.doubleClick()#点击csdn图.

2022-04-28 10:38:22 818

原创 python实现ftp的上传和下载功能

!/usr/bin/env python#coding: utf-8from ftplib import FTPimport osdef ftpconnect(host, username, password): ftp = FTP() ftp.connect(host, 21) ftp.login(username, password) return ftp#从ftp下载文件def downloadfile(ftp, remotepath, localp.

2022-04-22 14:34:45 2257

原创 机器学习中的数学认知

1.导数的公式

2022-03-02 14:16:29 340

原创 面试经验的感悟体会

1、自我介绍2、项目介绍,项目中使用的技术、难点及如何解决,项目有哪些亮点、又有哪些收益(问的很细、很深)答案:(1)技术用到的是最新的技术,但是难点是团队是两个,沟通是一个很大的问题,只能反馈更高一级的领导协调相关资源。(2)项目太多,人员众多,可以分组,设立各个组长进行管理,每个组出项目计划进行项目的实现。3、关于如何用之前的经验来做这边的的产品,谈谈自己见解4、以前的数仓有哪些可以优化和借鉴的地方5. 标签系统整体设计思路,用户画像怎么做,模型怎么设计与落地6、用户留存

2022-02-21 10:37:51 637

原创 2020年金融科技创新项目总结

2022-01-28 16:37:35 819

原创 你了解的数据湖

数据湖: 1.数据存储能力 2.海量任意类型的数据 3.原始数据(业务数据的副本) 4.数据管理能力(元数据管理) 5.具备多样化的分析能力 6.具备数据生命周期管理能力 7.具备完善的数据获取和数据发布能力...

2022-01-27 09:56:40 999

原创 python+sklearn

分类:识别某个对象属于哪个类别,常用的算法有:SVM(支持向量机)、nearest neighbors(最近邻)、random forest(随机森林),常见的应用有:垃圾邮件识别、图像识别。回归:预测与对象相关联的连续值属性,常见的算法有:SVR(支持向量机)、 ridge regression(岭回归)、Lasso,常见的应用有:药物反应,预测股价。聚类:将相似对象自动分组,常用的算法有:k-Means、 spectral clustering、mean-shift,常见的应用有:客户细分,分组

2021-12-21 09:25:01 433

原创 Python黑魔法知识库整理

1.在LINUX服务器上执行python -m SimpleHTTPServer 可以在浏览器上输入http:IP地址:8000提供Linux服务器中文件的下载功能。

2021-11-11 10:44:42 826

原创 精神心灵安抚

做人是可以平凡、朴实、朴素,但是不能平庸。平庸就是自己不动脑子让自己的生命有所提升,心甘情愿地陷入懒惰或迷惘中。平凡只是一种心态,我可以不穿名牌衣服,住小房子,不买汽车,但是内心中间依然在追寻中未来更加美好的前途和生活。...

2021-11-11 10:37:03 114

原创 杂乱的Linux命令

1.解压和压缩的命令解压缩的命令:tar -xzvf 要解压的文件名压缩的命令:tar -czvf 压缩后的文件名 要压缩的文件如何解压.zip压缩包?unzip filename.zip如何解压.gz的压缩包?gunzip filename.gzgzip -d filename.gz如何解压.bz2压缩包?解压1:bzip2 -d FileName.bz2  解压2:bunzip2 FileName.bz2  压缩: bzip2 -z FileName2.Linux中的一些特殊变量

2021-06-29 14:33:03 1498

原创 简单的flask+nginx项目助你开阔思路

如何通过浏览器访问flask项目一、开放端口二、修改nginx配置三、新建flask项目并启动1.新建app项目(1)新建__init__.py脚本(2)新建index.html展示页面2. 新建运行程序的脚本3.设置flask环境变量并启动4.在Windows浏览器上查看结果一、开放端口转载:https://blog.csdn.net/Kevinnsm/article/details/116199190二、修改nginx配置修改nginx的配置文件nginx.conf:server {list

2021-06-29 09:42:03 3933 1

原创 数据库建表效率为王

目的你有没有在做项目的过程遇到这样的困难,上游给了你好多好多的接口,你要在系统中创建表会很麻烦,没错就是你此刻所想的,根据Excel自动生成建表语句。方法一、工具咱们通过python开发一个根据Excel自动生成建表语句的程序,用到的模块包是xlrd、ConfigParser.二、过程(1)我们可以将需要读取的Excel文件,生成的最终的建表语句的文档配置在配置文件conf.ini中。(2)利用xlrd模块包,读取Excel中的各个列包括表名、英文名、数据类型、长度等等,将这些列拼接成建表语句

2020-11-04 10:33:48 309 2

原创 数据库中表数据备份

目的在所有的数据仓库类项目中几乎都会涉及到数据库中表数据备份的操作,主要是为了对一些结果数据进行备份,防止误操作。过程一、背景本次我们用的方法是通过在数据库中建立一个备份用户进行数据备份的操作,原因是现在的数据库一般是基于HDFS开发的数据库,这种数据库是采用最新的分布式存储的方式,数据都有备份节点所以不用担心整个数据库中数据丢失的问题。二、方法我们可以通过写java程序利用JDBC连接到数据库的备份用户(1)先用sql语句查询数据库中的系统表将所有的需要备份的表查询出来(2)通过循环这些表

2020-11-03 16:53:47 2479 1

原创 control-m的自动生成xml实现

目的在我的第一篇的博客中咱们已经讲到了整个新项目的开发流程思路,其中有用到的control-m的调度工具,由于control-m调度工具不支持通过Excel添加触发依赖的方式修改,只能通过修改xml文件才能实现上线,这里就有一个问题是如果第一次上线的时候有好多好多的作业需要上的话通过xml配置的方式会显的很麻烦,为了解决这一痛点咱们需要自己开发一个根据control-m特性结合excel自动生成一个全新的xml文件的程序。方法在这个程序中咱们用到的工具有:python,python模块包xlrd,Ex

2020-10-27 11:00:36 1821 3

原创 如何进行数据文件的传输(不简单)

前期提要在我的上一篇博客的结尾我给大家留了一个问题,就是作为一个下游系统如何进行数据文件和控制文件的传输数据操作,相信很多做个etl的同学都会,在这里我讲一下我们项目中我的设计思想。本章重点我们项目中需要的数据文件是需要从ODS系统或者源系统进行下发的,中间用到的传输工具就是东方通,这个工具可以把数据文件从ODS系统或者源系统传送数据文件到东方通服务器上然后将数据文件转发到我们的etl服务器上,以上这些不需要我们考虑太多,我们需要想的是数据文件到我们的服务器上的一个特定路径下了我们怎么把这些数据文件准

2020-10-25 17:22:51 904

vue+django进行前后端分离开发

后端的flask代码

2023-07-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除