自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(62)
  • 收藏
  • 关注

原创 mysql从库重新搭建的流程

mysql从库重新搭建的流程

2024-01-17 18:18:19 726

原创 Linux命令操作总结

linux环境下统计本地文件和hdfs文件的数据量大小

2024-01-10 15:52:25 441

原创 使用pandas处理数据的一些总结

NULL DEFINED AS ''将空字符串视为NULL值,'serialization.null.format'=''则用于指定NULL值在数据文件中的表示方式。通过这种方式,我们可以同时使用NULL DEFINED AS ''和serialization.null.format=''来将NULL值和空字符串表示在Hive中的一致性。5、当csv文件入hive时,遇到空值需要在hive中显示为null值。也可以修改已存在的表,如下。

2023-12-28 13:44:55 745

原创 python使用odbc连接db2、sqlserver数据库

先介绍安装odbc驱动,如果已安装跳过次环节。

2023-06-15 16:33:18 3054

原创 处理excel表格中出现多个数据块的方法

【代码】处理excel表格中出现多个数据块的方法。

2023-05-24 14:14:57 202

转载 python将pdf文件类型转换为txt、docx、excel

pdf转excel

2023-01-31 10:11:45 615

原创 Linux环境下并发删除文件

linux并发删除文件。

2022-10-11 15:11:29 383

原创 python实现发送邮件和企业微信功能

【代码】实现python发送邮件和企业微信的函数。

2022-09-19 14:02:25 1272

原创 hdfs需上传csv文件时hive表的DDL设计

hive,csv

2022-07-21 15:55:43 647

原创 获取当前时间的东八区时间

获取东八区时间

2022-07-05 15:21:27 1175

原创 白底图片转换为蓝底图片

opencv

2022-06-23 15:56:43 2351

原创 python 日期转换

import datetime,platformfrom dateutil.relativedelta import relativedeltadef get_partition_list(default_partition): partition_list = [] system = platform.system() # windows本地跑代码 if system == 'Windows': now = datetime.datetime.now(.

2022-05-05 13:36:57 1741

原创 关于PDF文本的解析与PDF图片的提取

1. 利用python读取PDF文本内容一,问题描述  利用python读取PDF文本内容二,运行环境  python 3.6三, 需要安装的库pip install pdfminer对pdfminer的简单介绍,官网介绍如下:  PDFMiner is a tool for extracting information from PDF documents....

2020-03-03 10:45:58 2311 2

转载 Windows 2012 R2设置同一用户(2人使用相同用户账号登录)同时多点远程系统(Win2016 Win2008R2 类似)及3人以上同时登录

参考链接:https://blog.csdn.net/zz1180/article/details/82378438?tdsourcetag=s_pctim_aiomsg

2019-10-18 10:47:53 505

转载 Windows下实现Django + Apache 部署

参考链接:https://blog.csdn.net/Mr_blueD/article/details/79759483

2019-06-28 16:33:48 805

转载 使用collections.Counter类统计列表元素出现次数

参考链接:https://www.cnblogs.com/hycstar/p/9345751.html

2019-06-28 16:29:18 854

转载 jieba分词 load_userdict 加载自定义词库太慢的问题

参考网址:https://blog.csdn.net/qq_29202513/article/details/85236995

2019-06-28 16:26:21 1861

原创 selenium中click扩展

selenium中click事件解决方案在实现selenium中经常能发现element.click()不起作用:首先确保该click的element能识别到且用element.click()不起作用,方案一:找到该按钮的js方法如下查看:代码如下: driver.execute_script(a['onclick'])如果该按钮没有js方法,那么采用方...

2019-06-18 16:53:57 1114 2

原创 Centos7 出现"Too many open files"等文件打开太多等错误解决方案

ulimit -a 查看用户进程级的能够打开文件句柄的数量,Centos7默认是1024。max-file 表示系统级别的能够打开的文件句柄的数量。是对整个系统的限制,并不是针对用户的。ulimit -n 控制进程级别能够打开的文件句柄的数量。提供对shell及其启动的进程的可用文件句柄的控制,这是进程级别的。对于服务器来说,file-max和ulimit都需要设置,否则会出现文件...

2019-05-29 11:16:52 11236

原创 postgresql 触发器知识点

1、审核触发器触发器最常见的用途之一是采用前后一致且透明的方式向表中记录数据的变化。当创建一个审核触发器时,首先我们必须决定我们要记录的内容。被记录的事件的逻辑为:谁改变了数据,数据什么时候被改变了,什么操作改变了数据。这些信息可以用下面的表进行保存:CREATE TABLE audit_log( username text, -- who did t...

2019-05-08 15:21:14 798

原创 使用selenium在爬虫过程中获取浏览器ip的方法

proxies_data = webdriver.DesiredCapabilities.CHROMEproxies_chromeOptions = proxies_data['goog:chromeOptions']['args']if proxies_chromeOptions: proxy = proxies_chromeOptions[0].split('=')[1] ...

2019-04-09 19:43:41 2687

原创 Windows上部署hadoop

1、 软件下载下载https://archive.apache.org/dist/hadoop/common/中有 hadoop 所有版本,我安装的是hadoop-2.7.32、安装jdk-8u11-windows-x64.exe 要安装 JDK,请转至 URLhttp://java.sun.com/javase/downloads/index.jsp。 找到相应...

2019-03-22 14:07:20 181

转载 Windows 64位import cv2提示“ImportError: DLL load failed: 找不到指定的模块

请参考:https://blog.csdn.net/cskywit/article/details/81513066

2019-03-22 10:50:09 261

转载 上传自己封装的python包到PyPI

请参考:https://www.jianshu.com/p/81fe5a5cd27a

2019-03-14 17:35:25 572

转载 在windows与Linux下挂载nfs文件系统

Windows请参考:https://blog.csdn.net/wykkunkun/article/details/79638288如果你使用xshell登录执行的话命令应为:mount.exe\\192.168.xxx.xx\home\pi\Server x:Linux请参考:https://www.cnblogs.com/freeweb/p/6593861.html...

2019-03-14 17:04:20 1198

转载 python3几种常见解压压缩包的方法

请参考:https://blog.csdn.net/luoshengkim/article/details/46647423

2019-03-04 16:49:26 2860

转载 sql中的in与not in,exists与not exists的区别

请查看:https://blog.csdn.net/baidu_37107022/article/details/77278381

2019-03-04 14:24:43 284

原创 PostgreSQL的特色sql语法

1、视图简言之,视图就是持久化存储在数据库中的一个查询语句。1.1、单表视图创建单表的视图:CREATE or REPLACE VIEW census.vw_facts_2019 as SELECT fact_type_id,val,yr FROM census.facts WHERE yr=2011;下面的删除命令将仅删除yr=2011的记录:delete from ce...

2019-03-01 12:02:03 1432

原创 高可用方案之PostgreSQL的逻辑复制和物理复制(二)

1、physical 复制的两种思路1.1、知识点:什么是归档 archive ?arhive_mode=on 开启归档进程,服务里会多一个 归档进程当启用archive_mode时,通过设置archive_command将已完成的WAL段发送到归档存储注意:触发归档有三种方式:1.手动切换wal日志,select pg_switch_wal()2.wal日志写满后触发...

2019-02-28 14:42:35 3130

原创 高可用方案之PostgreSQL的逻辑复制和物理复制(一)

常见高可用方案:共享磁盘故障转移  共享磁盘故障转移避免了只使用一份数据库拷贝带来的同步开销。 它使用一个由多个服务器共享的单一磁盘阵列。文件系统(块设备)      复制DRBD是用于 Linux 的一种流行的文件系统复制方案。事务日志传送  温备和热备服务器能够通过读取一个预写式日志(WAL) 记录的流来保持为当前状态。如果主服务器失效, 后备服务器拥有主服务器的几乎所...

2019-02-25 15:55:31 4658

原创 PostgreSQL的row_number() over() 用法

语法row_number() over( [partition by col1] order by col2[desc]) row_number() 为返回的记录定义各行编号 pritition by 分组 order by 排序我们都知道distinct 可以去重,但我今天重点讲使用row_number()函数去重测试:我们的目的是删除gg表中重复的数据(重复的数据保留一...

2019-02-20 16:44:12 8582 2

原创 PostgreSQL的表、约束

1、基本的建表操作1.1、继承表postgresql是唯一提供继承功能的数据库。子表含有自己字段还继承父表的所有字段,父表结构发生变化,子表的结构也会自动跟着变化。但是,并不是所有的父表特征都会被子表继承下来,比如父表的主键约束、唯一性约束以及索引就不会被继承。Check约束会被继承,但子表还可以另建自己的check约束1.2、无日志表一大优势:写入数据快,比普通表大约快15倍,缺...

2019-02-19 15:32:19 629

原创 Centos7下PostgreSQL file_fdw与postgres_fdw的使用

1、file_fdw的使用1.1、file_fdw的介绍 file_fdw模块提供外部数据包装器file_fdw,可用于访问服务器文件系统中的数据文件,或执行服务器上的程序并读取其输出。数据文件或程序输出必须采用可以读​​取的格式COPY FROM;目前,对数据文件的访问权限是只读的。使用此包装器创建的外表可以具有以下选项:filename指定要读取的文件。必须是绝对路径名...

2019-02-14 09:39:22 1468

原创 PostgreSQL插件的安装

1、Windows下postgresql的插件安装所有的插件都是通过源代码编译的 ,在window上需要自己用msvc去编译,在linux用 gcc安装步骤:首先,你得在你Windows上安装postgresqlhttps://www.enterprisedb.com/downloads/postgres-postgresql-downloads#windows选择一个版本安装...

2019-02-11 11:09:03 5302 2

原创 PostgreSQL的数据类型

1、serial类型1)generate_series为数组生成函数,与sql中的for循环类似,例:使用可选的步长形参来生成整数序列2、字符串函数1)填充(lpad、rpad)、修整空白(rtrim、ltrim、trim、btrim)、提取子字符串(substring)以及连接(||)2)split_part函数可以将指定位置的元素从用固定分隔符分隔的字符串中提取出来...

2019-01-25 14:09:53 2260

原创 多种的PostgreSQL安装和解析

目的:熟悉各种状态下postgresql ,理解postgresql 服务运行步骤和基本原理on linux centos 7一、EDB 公司发行版Interactive Installerpostgresql-10.6-1-linux-x64.runchmod +x postgresql-10.6-1-linux-x64.run./postgresql-10.6-1...

2019-01-17 15:14:22 873

原创 Centos7中将dat文件导入数据库

1、首先我的dvdrental文件包里有这些文件2、将这个文件夹打包,在服务器执行rz命令将文件传到服务器上,不要将文件放在root和home目录下3、进入数据库,创建数据库4、执行\q,退出postgres数据库,在bash下执行pg_restore -d dvdrental /opt/dvdrental.tar;5、查看表是否创建成功却换到dvdre...

2019-01-08 11:12:11 1391

转载 python3实现获取图片中的文字含中文

一、运行环境    (1) win10    (2) pycharm    (3) python 3.5    (4) pip3   install pillow            pip3  install pytesseract    (5)  识别引擎tesseract-ocr ,下载之后解压安装,下载地址:http://download.csdn.net/downl...

2019-01-04 11:26:36 1185

转载 airflow常见问题汇总

AirFlow常见问题汇总airflow常见问题的排查记录如下:1,airflow怎么批量unpause大量的dag任务​ 普通少量任务可以通过命令airflow unpause dag_id命令来启动,或者在web界面点击启动按钮实现,但是当任务过多的时候,一个个任务去启动就比较麻烦。其实dag信息是存储在数据库中的,可以通过批量修改数据库信息来达到批量启动dag任务的效果。假如是用...

2019-01-03 17:33:35 9104 1

原创 airflow分布式部署

1、首先将服务器之间设置免密现需要有A,B,C(假设IP地址为192.168.x.xxx)三台服务器,要求A,B可以同时免密登录到服务器C,服务器C作为master,另外两台作为worker操作步骤:1.A、B两台主机分别执行 ssh-keygen -t rsa,然后连续按回车,直至操作完成,此时会在A、B两台主机下/root/.ssh目录下生产id_rsa和id_...

2019-01-03 10:40:40 5063

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除