自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 资源 (4)
  • 收藏
  • 关注

原创 运筹学01_线性规划和单纯形法_待更新

运筹学01一、基解,基可行解,可行解(可行域),最优解1.基解(包含不存在的顶点,即x小于0的顶点)2.可行解(可行域)3.基可行解(可行域的顶点)4.最优解4.1唯一最优解4.2无穷多最优解5.无可行解6.无界解二、单纯形法1.迭代思路2.单纯形法格式总结一、基解,基可行解,可行解(可行域),最优解1.基解(包含不存在的顶点,即x小于0的顶点)在一个线性规划模型的标准型下,当某个基被选定之后,这个基对应的非基变量值都被令为0,此时这个线性规划模型标准型的约束条件部分就成为了一个仅包含基变量的线性.

2024-01-17 17:08:54 366

原创 图神经网络_待更新

GNN(图神经网络Graph Neural Network)Graph Convolutional Networks (GCN):这是一种最基础的图神经网络算法,在每一层中利用节点的邻居信息进行特征传递和更新,可以用于节点分类、图分类等任务。Graph Attention Networks (GAT):这是一种利用注意力机制来学习节点之间关系的图神经网络算法。通过为每个节点分配不同的注意力权重,可以更好地捕捉节点之间的重要关系。GraphSAGE:这是一种采样和聚合的图神经网络算法,通过从邻居节点中

2024-01-17 13:38:26 985

原创 奇异值分解_Linear Algebra

这三个过程至少具有一个,如对角阵只有缩拉。用矩阵语言描述如下:从右到左依次作用,先旋转V。

2024-01-11 14:06:56 1106

原创 社区发现算法

总结社区发现算法

2023-12-25 16:26:30 1011

原创 建模规范文档

建模规范文档

2023-11-20 14:54:24 70 1

原创 HIVE应用文档

当用户的数据文件格式不能被当前 Hive 所识别的时候,可以自定义文件格式。用户可以通过实现inputformat和outputformat来自定义输入输出格式,参考代码:.\hive-0.8.1\src\contrib\src\java\org\apache\hadoop\hive\contrib\fileformat\base64test1文件为base64编码后的内容,decode后数据为:hello,hiveOKOKhello,hive。

2023-11-15 15:25:17 82 1

原创 正则表达式及程序应用

java+python+hive+trino的正则表达式使用

2022-06-15 10:44:06 851

原创 数据分析平台接入大数据平台报错

连不上服务器问题排查

2022-01-19 15:42:09 1665 1

原创 nginx配置反向代理

因为项目会根据生成一个URL,那个URL需要挂在移动端APP上,但该项目需要部署在公司内网,公司内网不能全外网开放,所以需要经过nginx配置反向代理来跳转文章目录前言 一、pandas是什么? 二、使用步骤 1.引入库 2.读入数据 总结需求因为项目部署的服务器不能直接连上外网,所以需要申请外网网段的服务器来连通项目部署的内网服务器,又因为外网的服务器需要申请LB做代理,可以不用直接联通外网一、nginx负载均衡1.负载均衡七层负载均衡工作在OSI模型的

2021-09-03 16:34:04 1044

原创 Python数据处理

第一章 怎么把一列String全部转化为datetimePython数据处理第一章 怎么把一列String全部转化为datetime调用pandas.to_datetime源码总结百度了一下很多都是抄的,用datetime.datetime.strptime(str(a), “%Y%m%d”),是按照格式取出年月日的数据然后填进模板from datetime import datetime, date, time In [27]: dt = datetime(2011, 10, 29, 20

2021-07-05 16:00:14 240

原创 SQL语句整理及窗口函数的介绍

SQL一、DB2二、MYSQL1.求最大连续登录天数1.1用ROW_NUMBER() 窗口函数 按UID分组,按date升序排序1.2升序排序后,用date-sort==起始时间来判断是否连续,即起始值是否相同2.窗口函数2.1计算移动平均数2.2lag和lead函数的使用一、DB2VALUES trunc(sysdate,'mm')VALUES to_char(trunc(sysdate,'yyyy'),'YYYY-MM-DD HH24:MI:SS')VALUES to_char(add_.

2021-06-15 16:01:15 194

原创 string.Template---用于批量替换代码中的的字符串(如批量建表,插入数据,)

Template使用说明调用Template from string import Templatestring.Template:将一个string设置为模板,通过替换变量的方法,最终得到想要的string1.通过字典直接传送数据from string import Templates=Template("There $a and ${b}s")d={'a':'apple','b':'banbana'}##d格式为dicprint(s.substitute(d))2.它的主要实

2021-05-21 17:29:01 303

原创 将日度数据处理成只取成每周五的数据(周度数据)

文章目录一、处理逻辑二、实际代码总结一、处理逻辑1.新建一个dataframe,包含两列,一列原数据的date,一列与date相对应的星期2.因为数值类型的原因需要用pd.concat这个函数将两个dataframe合起来3.用新增的星期这个字段来进行筛选4.根据需要再看需不需要把这个重新填到另一个dataframe里边保持index完成二、实际代码代码如下(示例):import pandas as pdfrom datetime import datetime as dtimpo..

2021-05-10 15:38:22 1361

原创 大数据学习笔记(正在更新)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、HDFS1.基本系统架构2.读写进程2.1写入2.2读取2.2读取性能提升3.HDFS架构关键设计3.1HDFS高可用性(HA)3.2元数据持久化3.3HDFS联邦3.4数据副本机制3.5储存策略3.5.1分级存储3.5.2标签存储3.5.3节点组存储3.5colocation同分布3.6数据完整性保障和其他关键设计要点说明3.6.1重建失效数据盘的副本数据3.6.2集群数据均衡3.6.3元数据可靠性保证3.6.4统一的文件

2021-03-22 16:32:10 494 1

原创 如何将批处理做成类流处理-merge into

目录前言merge into总结前言例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。需要在前端页面上设计成实时的数据,但是没有flink,所以只能把批处理做成类流处理merge into具体语法请百度--更新存在的 UPDATE EMPLOYE AS EM SET SALARY=(SELECT SALARY FROM MANAGER WHERE MANAGERID=EM.EMPLOYEID) WHERE EMPL

2021-03-16 17:28:56 249

原创 pip问题总结

pip问题小结结论1.pip版本过低2.无法访问官网3.有多个(版本)的pip4.加上镜像源也访问不了总结结论因为自己最近硬是pip不上自己需要的包,查询了很多文章都没什么用,后来偶然发现了一个方法才有用。下边总结一下问题:1.pip版本过低。当你在cmd上pip,报错为pip版本过低,需要更新为最新版的pip,命令如下pip install --upgrade pip2.直接pip install xxx,下载速度过慢,或者根本无法访问官网,这个就需要加上镜像源,这个直接百度就能百度到,比如清

2021-01-29 16:19:17 277

原创 学习笔记—神经网络入门和贝叶斯优化调参

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录一、hive二、RDBMS三、MapReduce四、机器学习入门1.引入库2.读入数据总结一、hivehive只适合用来做批量数据统计分析,是披着sql数据库外衣的批量统计分析系统。将结构化的文件映射为一张数据库表,用于查询,类似于血缘分析。Hive详细介绍及简单应用示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、RDBMS关系型数据库管理系统,DBMS是数据库管理系统,DB

2021-01-28 16:51:34 795 2

原创 偷懒小技巧——python第三方库funcy

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录需求一、funcy二、函数1.无限计数器2.展平嵌套数组2.批量删除满足指定条件的元素总结需求1.需要展平多层嵌套数组2.DB2需要rename字段名(可以做到,好多百度的说不可以)alter tb cl1 rename…一、funcy因为有些接口传出的json中数组有些多层嵌套,百度到展平的方法有很多,其中最容易百度到的就是numpy的ravel函数可以展平数组,但是他得做一个循环或者遍历才能能展平多层次的数组,有

2021-01-28 16:43:19 660

原创 飞书获取报表数据模板+二维数组降维处理模板

保存一下简单模板,增加import jsonimport requests#from datetime import dateimport timeimport datetimeimport pandas as pd#import os# 获取tenant_access_tokenurl = "https://open.feishu.cn/open-apis/auth/v3/tenant_access_token/internal/"proxies = { "https": "***

2021-01-25 18:50:01 592

原创 Linux定时任务 crontab (windows计划任务)

crond 是linux下用来周期性的执行某种任务或等待处理某些事件的一个守护进程,与windows下的计划任务类似一.常见命令service crond start //启动服务service crond stop //关闭服务service crond restart //重启服务service crond reload //重新载入配置service crond status //查看服务状态二.具体命令格式crontab命令用于安装、删除或者列出用于驱动cron后台进程的表格。用户把

2021-01-21 12:29:59 386

原创 拉飞书的items的时候报错循环到2000或者2w行时报错 {‘code‘: 2200, ‘msg‘: ‘internal error‘}

项目场景:需要从飞书API处获取他的报表数据问题描述:在进行翻页循环的时候会丢失数据报错为{'code': 2200, 'msg': 'internal error'} }是飞书服务器的问题,于是优化了一下请求解决方案:header = {"content-type": "application/json", "Authorization": "Bearer " + str(tat), 'Connection': 'keep-alive', 'Referer':'https

2021-01-19 14:59:07 1078

原创 使用python调飞书API来获取tenant_access_token报错

项目场景:需要用python从飞书的API获取部门维度的用户活跃和功能使用数据,首先需要获取tenant_access_token问题描述:经过测试,能够连接到http协议的网址,但是不能连接https协议的网址,而飞书的地址都是https协议的,报错报错内容:SSLError: HTTPSConnectionPool(host='open.feishu.cn', port=443): Max retries exceeded with url: /open-apis/auth/v3/tena

2021-01-14 13:27:19 3269 3

原创 学习笔记

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档名词记录1.堡垒机1.虚拟机1.引入库1.引入库二、使用步骤1.引入库2.读入数据总结学习内容:学习时间:学习产出:1.堡垒机堡垒机,也叫做运维安全审计系统,它的核心功能是 4A:身份验证 Authentication账号管理 Account授权控制 Authorization安全审计 Audit简单总结一句话:堡垒机是用来控制哪些人可以登录哪些资产(事先防范和事中控制),以及录像记录登录资产后做了什么事情(事后溯源.)

2020-08-31 13:43:20 236

原创 LDAP学习记录

LDAP学习记录一、什么是LDAP二、LDAP基本情况与LDAP的使用1.LDAP基本情况2.LDAP的使用总结一、什么是LDAPLDAP是轻量级目录访问协议,他常用功能就是单点登录,LDAP目录是一个专门为查询、浏览和搜索而优化的数据库,它成树状结构组织数据,并且有优异的读性能,但写性能差,并且没有事务处理、回滚等复杂功能,不适于存储修改频繁的数据。LDAP目录服务是由目录数据库和一套访问协议组成的系统,所有条目的属性定义组成在一起构成schema。LDAP是开放的Internet标准,支持跨

2020-08-27 16:02:05 146

获取表血缘关系以及相关sql语句,输出形式,附带shell脚本及建表语句

通过传入路径能够遍历该路径下所有的.sql和.hql文件,给jar包传入sql语句,将sql按;来分割分别解析sql语句将输出的现成的表血缘关系,按照catlog,schema,tablename来拆分

2022-06-07

通过解析sql语句获取表血缘关系项目

通过解析sql语句获取表血缘关系

2022-06-07

基于gsp的sql解析工具

基于gsp的sql解析工具,能够获取表血缘关系及表字段关系,以及sql类型

2022-06-07

基于gudusoft的sql解析项目

基于gudusoft的sql解析项目

2022-06-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除