自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 Python-办公自动化-合并小文件

合并小文件(不处理各文件表头数据)

2023-10-14 16:06:21 73

原创 Python-办公自动化-合并小文件

Python-办公自动化-合并小文件。

2023-10-14 16:00:31 72

原创 Python-办公自动化-拆分TXT文件

按文件个数拆分TXT文件。

2023-10-06 17:02:06 123

原创 Python-办公自动化-拆分TXT

按数据条数拆分TXT。

2023-10-06 16:36:47 51

原创 Python-办公自动化-拆分TXT

按数据条数拆分txt。

2023-10-06 16:13:49 26

原创 Python-办公自动化-拆分Excel(openpyxl写法)

将一个Excel通过sheet拆分成多个Excel。

2023-10-06 15:24:57 170

原创 Python-办公自动化-拆分EXCEL

将1个EXCEL通过Sheet拆分成多个(xlsxwriter写法)

2023-10-06 14:44:52 132

原创 Python-办公自动化-按条数拆分EXCE

按条数拆分EXCEL

2023-10-06 13:09:48 48

原创 Python-办公自动化-拆分大文件

拆分大文件,并写入到EXCEL中

2023-10-06 12:43:00 45

原创 Python办公自动化-EXCEL月报处理整合

将每个派发处理人填写的对接老师的工作任务明细汇总到不同对接老师的EXCEL里。

2023-10-06 11:56:09 102

原创 Python-Pandas模块

Python-pandas模块

2022-11-14 16:48:41 244 2

原创 Python-Numpy模块

Python-Numpy模块各类方法函数,如统计函数,索引,数组合并,随机函数等

2022-11-14 15:24:27 378

原创 mysql实现oracle中的row number功能

**mysql实现窗口函数row number() over()的效果**先有student表±-----±-------±-----------±------±—+| s_id | s_name | s_birth | s_sex±-----±-------±-----------±------±—+| 07 | 郑竹 | 1989-07-01 | 女| 01 ...

2020-03-31 13:17:11 399

原创 向mysql中导入文件时,忽略我们不想要的几列数据

向mysql中导入文件时,忽略文件中的两列数据当我们导入文件时,不需要某列数据,只要用@字段名即可。@后面用什么名都行,即跳过某列。cat xiaozhang.txtid name sex class score 1 小张 男 class1 1002 张三 男 class2 993 小红 女 class1 98create table ...

2020-03-27 15:12:53 1199

原创 awk查看某列值有多少行,及多少种数据

查看xiaozhang.txt第3列为101的数据有多少行awk -F ‘#’ '$3==101 {print $0} xiaozhang.txt |wc -l查看xiaozhang.txt第2列有几种数据awk -F ‘#’ ‘{print $3}’ xiaozhang.txt | sort -un...

2020-01-10 11:17:43 1883

原创 logstash收集nginx日志实战

目的:收集access.log日志文件信息,收集ip, 时间 , 请求行.nginx数据源例子:36.157.150.1 - - [05/Nov/2018:12:59:27 +0800] “GET /phpmyadmin_8c1019c9c0de7a0f/js/messages.php?lang=zh_CN&db=&collation_connection=utf8_unic...

2020-01-07 13:25:28 216

原创 统计多个文件总共多少行

目的:统计每月的总文件的总行数shell脚本:#!/bin/bashecho ‘’ > a.txtecho ‘输入月份,如01,12’read numfor ((x=1;x<10;x++))doa1=‘xiaozhang_2019’${num} ‘0’a2=’.txt’file=${a1} $ x${a2}wc -l ${file} >> a.txt...

2019-12-31 10:48:01 307

原创 mysql中索引的使用

**索引**我们在使用sql时,在遇到sql性能下降、执行时间长时,就需要考虑用索引来帮我们解决问题。如,数据过多,关联太多的表等。创建索引create index idx_name_age_address on student(name,age,address);create table student(id int(10) auto_increment,name varchar...

2019-07-18 14:15:16 94

原创 Spark中RDD

**RDD**RDD叫做弹性分布式数据集。是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的几个。RDD具有数据流模型的特点,自动容错、位置感知性调度和可伸缩性。RDD是一个应用层面的逻辑概念。一个RDD多个分片。RDD就是一个元数据记录集,记录了RDD内存所有的关系数据。基于RDD之间的依赖,RDD会形成一个有向无环图DAG,该DAG描述了整个流式计算的...

2019-06-07 13:32:36 267

原创 Spark基础

**spark**spark是一种快速、通用、可扩展的大数据分析引擎。spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、Graphx、MLlib等子项目。spark是基于内存计算的大数据并行计算框架。是基于MapReduce算法实现的分布式计算。**特点**快、易用、通用、兼容性。主要架构模块spark Core:...

2019-06-06 00:06:49 102

原创 Hive

**数据仓库**数据仓库简写为DW或DWH,是面向主题的、集成的、非易失的和时变的数据集合。元数据,主要记录数据仓库中模型的定义。各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。**Hive**它是基于Hadoop的一个数据仓库工具。本质上是将SQL转化为MapReduce程序利用HDFS存储数据,利用MapReduce查询分析数据。Hive组件用户接口、元数...

2019-05-29 21:27:14 90

转载 MapReduce

**MapReduce**思想核心:分为治之,Map负责“分”,Reduce负责“合"MapReduce是一个分布式运算程序的编程框架。8个步骤Map阶段第一步:从hdfs读取文件,通过inputformat设定读取路径第二步:maptask要做的具体的业务逻辑。Shuffle阶段第三步:对maptask的输出进行分区第四步:对分区的数据进行排序第五步:对排序后的数据进行规...

2019-05-25 10:50:03 90

原创 HDFS

Hdfs介绍HDFS是Hadoop Distribute FIle System的简称,是Hadoop分部式文件系统。作为最底层的分布式服务而存在。架构采用master/slave架构。一般一个HDFS集群是一个NameNode和一定数目的DataNode组成。分块存储在物理上是分块存储(block)的,在hadoop2.x版本中默认大小是128M。HDFS是设计成使用一次写入,多次...

2019-05-19 20:37:43 888

原创 Hadoop

Hadoop最早起源于Nutch,狭义上:hadoop就是单独只带hadoop这个软件。广义上:hadoop指代大数据的一个生态圈,包括很多其他软件。hadoop历史版本0.x系列版本:hadoop当中最早的一个开源版本,在此基础上演变而来的1.x以及2.x的版本。1.x版本系列:hadoop版本当中的第二代开源版本,主要修复0.x版本的一些bug等。2.x版本系列:架构产生重大变化,...

2019-05-16 10:24:18 105

转载 Flume

**Flume**Flume是一个分布式、可靠和高可用的海量日志采集、聚合和传输的系统。Flume分布式系统中最核心的角色是agent,内部有三个组件:Source:采集组件,用于跟数据源对接,以获取数据。Sink:下沉组件,用于往下一级agent传递数据或者往最终存储系统传递数据。Channel:传输通道组件,用于从source将数据传递到sink.配置文件#定义agent中各...

2019-05-13 15:12:57 91

转载 Kafka知识笔记

KafkaApache Kafka是一个开源的分部式消息队列(生产者消费者模式),是由scala语言编写的,类似于JMS,是基于JMS标准实现的。Apache kafka的基本架构Kafka Cluster:由多个服务器组成。每个服务器单独的名字broker(掮客)。Kafka broker:kafka集群中包含的服务器。kafka Producer:消息生产者、发布消息到kafka集群...

2019-05-12 16:08:51 80

原创 SolrColud、Zookeeper和Dubbox知识笔记

**SolrColud**SolrColud是Solr提供的分布式搜索方案,适合大规模容错,分布式索引和检索能力。SolrColud需要Solr基于Zookeeper部署,Zookeeper是一个集群管理软件,由于So录入C欧陆的需要由多台服务器组成。Solr集群中写数据过程1、使用solr连接SolrColud中任意的一个节点,如果连接的是slave节点,solrCloud内部机制,...

2019-05-12 10:13:02 111

原创 搜索引擎Lucene和Solr

定义:是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。**Lucene**Lucene是Apache提供的一个开源的全文检索引擎工具包,其本质就是一堆jar包而已,而非一个完整的搜索引擎,但我们可以通过Lucene来构建一个搜索引擎。**API详解**indexWriter:索引写入器对...

2019-05-11 21:40:59 173

原创 Redis笔记

RedisRedis是一款由c语言编写,基于内存内存持久化的数据库,数据是以Key-Value的形式存储的。提供的数据类型和特点string: 做缓存hash: 做缓存list: 任务队列set: 去重业务sortedSet: 排序操作(排行榜)redis的客户端工具jedisjedis是一款java连接redis客户端工具包,通常吧Jedis看做事一个连接对象,采用连接池...

2019-05-11 11:20:47 74

原创 Nginx和Git知识笔记

**nginx**Nginx是一款高性能的http服务器/发向代理服务器及电子邮件代理服务器。优点:官方测试nginx能够支撑5万并发链接,并且cpu、内存等资源消耗却非常低,运行非常稳定。特性:http服务器、虚拟主机、反向代理,负载均衡启动nginx ./nginx查看nginx进程 ps -ef | grep nginx停止Nginx ./nginx -s s...

2019-05-10 12:43:54 159

原创 Linux常用命令笔记分享

ls -l 可以写成 ll 查看清单ls -a 查看当前目录有哪些文件(包括隐藏目录)cd 切换目录cd - 返回上一次目录cd …/ 返回上一层目录cd ./ 当前目录cd ~ 返回当前用户目录(root 代表的就是~)或者就直接输入cdpwd 展示当前在那一个目录下mkdir 创建当前目录mkdir -p cc/ff 创建一个多级...

2019-05-09 12:10:46 70

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除