自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(57)
  • 资源 (3)
  • 收藏
  • 关注

原创 Elasticsearch基础概念和Python操作

es基础和python调用

2023-03-08 21:10:56 810 1

原创 gRPC 框架 简单使用(python版)

文章目录一、gRPC 简介概述协议缓冲区二、gRPC 的 Hello World协议缓冲区gRPC 服务端gRPC 客户端启动 gRPC一、gRPC 简介概述gRPC是搭建分布式应用接口和客户端的框架。在 gRPC 中,客户端应用程序可以直接调用不同机器上的服务器应用程序上的方法,就像它是本地对象一样,可以更容易创建分布式应用程序和服务。与许多 RPC 系统一样,gRPC 基于定义服务的思想,指定可以远程调用的方法及其参数和返回类型。在服务端,服务端实现这个接口并运行一个 gRPC 服务器来处理客户端

2022-04-21 23:32:42 9753 3

原创 使用Tableau做数据分析的一些思考

文章目录使用Tableau做数据分析的一些思考问题分析Tableau使用技巧使用Tableau做数据分析的一些思考参考:Tableau数据分析训练营之LOD专题15 大详细级别表达式对于Tableau数据分析有两句话非常重要:分析即聚合。维度是聚合依据。问题分析需要理解复杂问题的层级关系,通常与当前层级有:向上/向下,两种关系向下的层级问题,需要用fixed固定层级关系,也可以使用INCLUDE向上的层级问题,有三种方法:表计算:window_sum/total建议

2022-04-12 15:07:33 998

原创 pandas日期格式

文章目录pandas中的日期格式一、提取日期的属性二、日期的偏移操作三、日期格式化pandas中的日期格式日期格式的字符串转换为日期格式使用pd.to_datetimedata['Order Date'] = pd.to_datetime(data['Order Date'])一、提取日期的属性提取日期格式中的年、月、日、时、分、秒data['Order Date'].dt.yeardata['Order Date'].dt.monthdata['Order Date'].dt.day

2022-04-11 20:40:33 6094

原创 Flink 应用-电商用户行为分析

Flink 应用-电商用户行为分析文章目录Flink 应用-电商用户行为分析一、电商用户行为分析1.1 项目模块设计1.2 数据源二、项目模块2.1 实时热门商品统计创建POJO代码2.2 实时流量统计 — 热门网页创建POJO代码乱序输出2.3 实时流量统计 — PV和UV统计PV代码统计UV代码2.4 市场营销分析—APP市场推广统计创建POJO代码代码—不分渠道2.5 市场营销分析—页面广告统计创建POJO广告点击次数统计 代码点击异常行为黑名单过滤2.6 恶意登录监控创建POJO代码实现CEP代码

2022-04-11 17:13:52 683

原创 k-means 聚类算法

文章目录k-means 聚类算法一、原理二、python实现聚类分析三、sklearn实现聚类分析四、 K-means算法优缺点参考:数据挖掘十大算法(二):K-means聚类算法原理与实现K-means聚类分析算法原理、改进及实现k-means 聚类算法一、原理K-means聚类算法是一种无监督分类算法,将划分出来的类簇中点的均值当作该类簇的中心点,其可以在不确定划分规则的前提下,通过对数据集合不断迭代的方法对数据集进行划分,自动计算并更新每个类簇的中心点。K-means聚类算法是一种迭

2022-04-10 19:14:42 6087 1

原创 Flink CEP

Flink CEP文章目录Flink CEP一、基本概念1.1 什么是CEP1.2 CEP的特点二、Pattern API2.1 个体模式(**Individual Patterns**)量词(Quantifier)条件(Condition)2.2 组合模式2.3 模式组三、模式的检测四、匹配事件的提取五、超时事件的提取相关博客:Flink-复杂事件(CEP)Flink之CEP(复杂时间处理)一、基本概念1.1 什么是CEP复杂事件处理(Complex Event Processing,简称C

2022-04-06 19:15:06 163

原创 Flink 函数

Flink 函数文章目录Flink 函数一、Flink Table API 和 SQL 内置函数二、用户自定义函数(UDF)2.1 标量函数(Scalar Functions)2.2 表函数(Table Function)2.3 聚合函数(Aggregate Function)2.4 表聚合函数(Table Function)相关博客:Flink-函数 | 用户自定义函数(UDF)标量函数 | 表函数 | 聚合函数 | 表聚合函数一、Flink Table API 和 SQL 内置函数Flink

2022-04-06 19:11:13 1009

原创 Flink 时间特性及sql窗口

Flink 时间特性及sql窗口文章目录Flink 时间特性及sql窗口一、概述二、定义处理时间(Processing Time)2.1 由DataSream转换成表时2.2 定义Table Schema时2.3 创建表的DDL中测试代码三、定义事件时间(Event Time)3.1 由DataStream转换成表时3.2 定义Table Schema时3.3 创建表的DDL中测试代码四、窗口4.1 Group Windows4.2 SQL中的Group Windows测试代码4.3 Over Windo

2022-04-06 19:08:45 1512

原创 Flink Table API及Flink SQL

Flink Table API及Flink SQL文章目录Flink Table API及Flink SQL一、概述二、基本程序结构三、Table API批处理和流处理3.1 表 Table3.2 创建表3.3 创建TableEnvironment3.4 表的查询3.5 Table更新模式3.6 将数据写到文件中3.7 读写Kafka四、表和流的转换4.1 将表Table转换成DataStream4.2 将DataStream转换为Table4.3 创建临时视图**(Temporary View)**五、

2022-04-06 19:07:24 719

原创 Flink ProcessFunction

Flink ProcessFunction文章目录Flink ProcessFunction一、 KeyedProcessFunction二、TimerService和定时器(Timers)三、侧输出流(SideOutput)四、CoProcessFunction之前使用的转换算子是无法访问事件的时间戳信息和水位线信息的,在某些应用场景下,我们需要这些信息。因此,DataStream API提供了一系列的Low-Level转换算子。可以访问时间戳、watermark以及注册定时事件。还可以输出特定的一些

2022-04-06 19:05:12 998

原创 Flink 状态

Flink 状态文章目录Flink 状态一、状态概述二、算子状态Operator State算子状态数据结构测试代码三、键控状态 Keyed State键控状态的数据结构测试代码四、状态后端4.1 概述4.2 状态后端类型相关博客:Flink_Flink中的状态Flink状态管理详解:Keyed State和Operator List State深度解析一、状态概述由一个任务维护,并且用来计算某个结果的所有数据,都属于这个任务的状态可以认为任务状态就是一个本地变量,可以被任务的业务逻

2022-04-06 19:03:39 1551

原创 Flink 时间概念和水位

Flink 时间概念和水位文章目录Flink 时间概念和水位一、Flink中的时间语义二、Event Time的引入三、WaterMark 水印3.1 概念3.2 Watermark 的特点及传递3.3 Watermark的引入3.4 Watermark的设定3.5 测试代码3.6 窗口起始点和偏移量Flink 时间语义和水位相关博客Flink_windowFlink-时间语义与Wartmark及EventTime在Window中的使用一、Flink中的时间语义Flink中包括三种时间。E

2022-04-06 19:02:07 779

原创 Flink 窗口

Flink 窗口文章目录Flink 窗口一、Window1.1 概述1.2 Window 类型**滚动窗口(Tumbling Windows)****滑动窗口(Sliding Windows)****会话窗口(Session Windows)**二、Window API2.1 概述窗口分配器(Window Assigner)创建不同类型的窗口2.2 TimeWindow滚动时间窗口滑动时间窗口2.3 CountWindow滚动计数窗口滑动计数窗口2.4 window function增量聚合函数全窗口函数

2022-04-06 18:58:59 1298

原创 Flink 流处理API

Flink 流处理API文章目录Flink 流处理API一、Environment 创建环境1.1 **getExecutionEnvironment**1.2 createLocalEnvironment1.3 **createRemoteEnvironment**二、Source 读取数据2.1 从 集合/文件 中创建数据流2.2 从kafka读取数据2.3 自定义Source三、Transform 转换算子3.1 基本转换算子 map/flatMap/filter3.2 聚合算子3.3 多转换算子3

2022-04-06 18:56:53 1176

原创 Flink 运行架构

Flink 运行架构文章目录Flink 运行架构一、Flink 运行时的组件1.1 作业管理器(JobManager)1.2 资源管理器(**ResourceManager**)1.3 任务管理器(**TaskManager**)1.4 分发器(**Dispatcher**)二、任务提交流程三、任务调度原理3.1 TaskManager和Slots3.2 Slot和并行度3.3 程序和数据流3.4 执行图(ExecutionGraph)3.5 数据传输形式3.6 任务链(OeratorChains)一、

2022-04-06 18:52:23 245

原创 租房数据-数据分析

文章目录安居客租房数据爬虫以及数据分析一、安居客租房数据爬虫部分二、安居客租房数据分析一、 读取数据,并简单处理数据1.1 判断是否有重复值1.2 判断是否有缺失值二、简单分析数据2.1 处理数据2.2 查看价格、面积的分布情况价格的分布情况面积的分布情况2.3 区域、层数对价格的影响各个区域的价格分布情况各个层级的价格分布情况三、分析数据间的相关性四、数据标准化五、总结安居客租房数据爬虫以及数据分析最近把安居客租房的数据爬取了一部分,正好想着进行一些简单的数据分析。一、安居客租房数据爬虫部分爬

2022-02-16 15:57:53 4028 1

原创 python 杂记2

文章目录判断文件是否存在,以及复制文件pandas 判断某一列的规则pandas 中 series 转换为 dataframepandas读取excel文件的两种方式dataframe 与列表运算获取某月的第一天和最后一天的日期pandas删除重复值*drop_duplicates*判断文件是否存在,以及复制文件import osimport shutil# 判断文件是否存在if not os.path.exists('C:\\Users'): # 复制文件,类似于 cp 命令 s

2022-02-12 14:10:51 911

原创 python操作word

python操作word文章目录python操作word1、需要安装`python-docx`库2、导入相关包3、操作word3.1 读取word文件3.2 修改段落文字,以及段落样式(风格和大小)3.3 修改表格的中的内容3.4 删除表格或段落3.5 将document对象保存为docx文档4、模板4.1 更新表格函数4.2 更新文本函数1、需要安装python-docx库pip install python-docx2、导入相关包from docx import Documentfrom

2021-12-27 10:14:22 2001

原创 python 杂记

杂记pandas实现SQL的in和not inimport pandas as pddf = pd.DataFrame({'id':['3000','4001','4002','3005']})ids = ['4001','4002']# 方式一df[df.id.isin(ids)]df[~df.id.isin(ids)]# 方式二df.query("id in @ids")df.query("id not in @ids")pandas 实现 startswith# 方式

2021-12-26 14:05:18 293

原创 Hive 压缩和储存

Hive 压缩和储存文章目录Hive 压缩和储存一、Hadoop压缩配置1.1 MR支持的压缩编码1.2 压缩参数配置二、Map输出阶段压缩三、Reduce输出阶段压缩四、文件储存格式4.1 列式储存和行式储存4.2 TextFile 格式4.3 Orc格式4.4 Parquet 格式4.5 主流文件存储格式对比五、存储和压缩结合一、Hadoop压缩配置1.1 MR支持的压缩编码压缩编码为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器,如下表:编码器压缩性能的比较性能比较htt

2021-12-26 14:02:42 148

原创 Hive 函数

Hive 函数文章目录Hive 函数一、内置函数1.1 内置函数帮助1.2 常用内置函数1.2.1 空字段赋值1.2.2 CASE WHEN THEN ELSE END1.2.3 行转列1.2.4 列转行1.2.5 窗口函数(开窗函数)1.2.6 Rank1.2.7 其他常用函数1.2.8 **窗口函数详解**二、自定义函数2.1 自定义UDF2.2 自定义UDTF一、内置函数1.1 内置函数帮助# 查看系统自带的函数show functions;# 显示自带的函数的用法desc funct

2021-12-26 14:01:32 1371

原创 Hive 分区表和分桶表

Hive 分区表和分桶表文章目录Hive 分区表和分桶表一、分区表1.1 分区表基本操作1.2 二级分区1.3 动态分区调整二、分桶表三、抽样查询一、分区表1.1 分区表基本操作分区表实际上就是对应一个HDFS文件系统上的独立文件夹,改文件夹下是该分区所有的数据文件。Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过where子句中的表达式选择查询所需要的指定的分区,这样的查询效率会提高很多。创建分区表语法create table dept_partiti

2021-12-26 14:00:32 134

原创 Hive 查询

Hive 查询文章目录Hive 查询一、基本查询1.1 全表和特定列查询1.2 算术运算符1.3 常用函数1.4 Limit语句1.5 Where语句1.6 比较运算符1.7 Like和RLike1.8 逻辑运算符二、分组2.1 Group By 语句2.2 Having 语句三、连接join3.1 等值join3.2 内连接3.3 左外连接3.4 右外连接3.5 满外连接3.6 笛卡尔积四、排序4.1 全局排序4.2 每个reduce内部排序—sort by4.3 分区—distribute by4

2021-12-26 13:59:50 1221

原创 Hive DML 数据操作

Hive DML 数据操作一、数据导入1.1 向表中加载数据语法load data [local] inpath '数据的路径' [overwrite] into table table_name [partition (partcol1=val1,…)];load data:表示加载数据。local:表示从本地加载数据到Hive表;否则从HDFS中加载数据到Hive表。inpath:表示加载数据的路径。overwrite:表示覆盖表中已有的数据,否则表示追加。into tab

2021-12-26 13:59:16 350

原创 Hive DDL 数据定义

Hive DDL 数据定义一、数据库1.1 创建数据库CREATE DATABASE [IF NOT EXISTS] database_name[COMMENT database_comment][LOCATION hdfs_path][WITH DBPROPERTIES (property_name=property_value, ...)];创建一个数据库,数据库在HDFS上默认的储存路径是/user/hive/warehouse/*.dbcreate database db_h

2021-12-26 13:58:39 1109

原创 Hive 数据类型

Hive 数据类型1. 数据类型基本数据类型对于Hive的String类型相当于数据库的varchar类型,该类型是一个可变的字符串,理论上它可以储存2GB的字符数。集合数据类型Hive有三种复杂数据结构类型ARRAY、MAP和STRUCT。ARRAY和MAP与Java中的Array和Map类似,而STRUCT与c语言中的Struct类似,它封装了一个命名字段集合。复杂数据类型允许任一层次的嵌套2. 类型转换Hive的原子数据类型是可以进行隐式转换的,类似于java的类型转换,例如某表达式使用

2021-12-26 13:58:13 562

原创 Zookeeper 部署及基础原理

文章目录一、zookeeper简介1.1 zookeeper 介绍1.2 zookeeper工作机制1.3 zookeeper 特点1.4 数据结构1.5 应用场景二、安装zookeeper2.1 官网地址2.2 下载linux环境下安装的tar包2.3 上传到linux,解压缩2.4 修改zookeeper配置2.5 启动zookeeper2.6 配置参数解读三、集群操作3.1 集群安装3.2 **选举机制(重点)**四、客户端命令行操作4.1 ZNode数据节点信息4.2 节点类型4.3 监听器原理4

2021-12-26 13:56:57 147

原创 Kafka 部署及基础原理

文章目录一、Kafka概述1.1Kafka介绍1.2 消息队列1.3 消息队列的两种模式1.4 kafka快速入门1.4.1 安装包下载1.4.2 安装kafka1.4.3 kafka命令行操作二、Kfaka构架2.1 kafka基础框架2.2 kafka工作流程以及文件储存机制2.3 kafka 生产者2.3.1 分区策略2.3.2 数据可靠性保证2.3.3 Exactly Once语义2.4 消费者2.4.1 消费方式2.4.2 分区分配策略2.4.3 offset维护2.4.4 消费者组案例2.5 K

2021-12-26 13:50:51 176

原创 SparkCore--详细

文章目录一、Spark运行架构1.1 运行架构1.2 核心组件1.3 组件简单展示1.3.1 简单传输1.3.2 传输逻辑运算以及数据1.3.3 分布式计算1.4 核心概念二、Spark核心编程2.1 RDD弹性分布式数据集2.1.1 RDD 和 IO流2.1.2 RDD的特点2.1.3 RDD 核心属性2.1.4 RDD执行原理2.2 RDD基础2.2.1 RDD创建2.2.2 RDD 并行度与分区内存数据文件数据2.3 RDD 方法2.3.1 RDD转换算子2.3.1.1 Value类型2.3.1.2

2021-08-13 12:18:51 327

原创 Spark基本概念以及环境搭建

Spark基本概念一、什么是SparkApache Spark是用于大规模数据处理的统一分析引擎。Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。Spark框架是基于Scala语言编写的。二、Spark 和 HadoopSpark和Hadoop有什么关系?从功能上来说:HadoopHadoop是由java语言编写的,在分布式集群当中存储海量数据,并运行分布式应用的开源框架作为 Hadoop 分布式文件系统,HDFS处于Hadoop生态圈的最下层,存储着所有的数据

2021-08-13 11:24:01 309

原创 python爬虫之Scrapy(一)

文章目录scrapy框架安装创建一个scrapy项目终端工具命令scrapy框架安装pip install scrapy创建一个scrapy项目scrapy startproject tutorial创建一个tutorial包含以下内容的目录:tutorial/ scrapy.cfg # 项目的配置文件 tutorial/ # python模块,在这里添加你的爬虫项目 __init__.py it

2021-07-11 09:08:46 240

原创 爬虫之爬取中国移动采购与招标网

文章目录一、确认爬取目标二、尝试爬取三、使用`pyppeteer`库四、完整代码一、确认爬取目标爬取中国移动采购与招标网https://b2b.10086.cn/b2b/main/listVendorNotice.html?noticeType=2二、尝试爬取首先我使用开发者工具,尝试看一下,数据是怎么请求回来的。然后就发现这个,https://b2b.10086.cn/b2b/main/listVendorNoticeResult.html?ekp1APd1=5TLUwJWxAYS

2021-06-22 10:14:29 3589 8

原创 python爬虫之pyppeteer库

文章目录pyppeteerpyppeteer和puppeteer的不同点安装简单使用模拟文本输入和点击移除Chrome正受到自动测试软件的控制爬取京东商城pyppeteerpyppeteer 是非官方 Python 版本的 Puppeteer 库,浏览器自动化库,由日本工程师开发。Puppeteer 是 Google 基于 Node.js 开发的工具,调用 Chrome 的 API,通过 JavaScript 代码来操纵 Chrome 完成一些操作,用于网络爬虫、Web 程序自动测试等。pyppet

2021-06-12 16:21:18 1555 4

原创 python处理数据之xlwings库

文章目录xlwings基本结构创建一个app创建/打开一个books创建/打开一个sheet及相关操作xlwings处理数据获取数据写入数据动态获取范围numpy数组pandas数据框xlwings保存数据xlwingsxlwings和openpyxl类似,都是python操作excel的常用库。基本结构创建一个appimport xlwings as xw# visuble----创建一个app,将他展示出来# add_book---创建app时,是否创建一个工作簿app = x

2021-05-24 21:21:25 1234

原创 python爬虫之selenium库

文章目录selenium库引擎启动器访问地址切换网页,框架定位元素对元素进行操作网页等待、元素等待、元素遮蔽网页转换、Beautifulsoup、lxml网页关闭,引擎退出定位元素的一些注意事项其他数据保存的问题(简略介绍,以后会详细学习)selenium库selenium库是模拟浏览器,动态爬虫的一个库。首次使用需要安装pip install selenium安装之后导入selenium包就可以了。import selenium一般常用的类有:from selenium import

2021-05-09 14:41:41 2334

原创 python爬虫基础,正则、xpath、bs4(详细)

文章目录爬虫步骤正则表达式什么是正则表达式?正则表达式的规则Python的re模块compile函数match函数search函数findall函数finditer函数split函数sub函数匹配中文注意:贪婪模式与非贪婪模式使用正则爬取工作信息xpath什么是XML?XML的节点关系XPath是什么?xpath语法--选取节点xpath语法--谓语xpath语法--选取未知节点xpath语法--选取若干路径XPath的运算符lxml库xpath实例使用xpath爬取工作信息BeautifulSoup4例子

2021-05-03 17:08:58 1859

原创 shell基本语法

文章目录Shell语法设置环境变量位置参数变量预定义变量运算符条件判断if判断case语句for循环while循环read读取控制台输入函数系统函数自定义函数Shell语法Shell是一个命令行解释器,他为用户提供一个向Linux内核发送请求以便于运行程序的界面系统级程序。脚本格式要求脚本以#!/bin/bash开头脚本需要有可执行权限执行sh文件时,需要有执行权限chmod u+x ./hello.sh./hell.sh # 可以执行成功或者直接sh ./hello.sh

2021-03-31 09:39:51 158 1

原创 linux主机名设置、进程管理、服务管理、RPM和YUM

文章目录设置主机名和hosts映射主机名解析机制分析进程管理显示系统执行的进程查看某一进程的父进程终止进程`kill`和`killall`查看进程树服务管理service管理指令服务的运行级别`chkconfig`指令`systemctl`管理指令`systemctl`设置服务的自启动状态打开或者关闭指定端口动态监控进程监控网络状态RPM与YUMRPM包管理YUM设置主机名和hosts映射hostname:查看主机名修改:/etc/hostname文件,来修改主机名,修改后重启生效设置hosts映

2021-03-31 09:27:48 128 1

原创 Linux定时任务、分区和网络配置

文章目录`linux`定时任务定时任务调度at定时任务`linux`分区添加磁盘并挂载磁盘情况查询磁盘实用指令网络配置网络环境配置linux定时任务定时任务调度crontab [选项]-e编辑crontab定时任务-I查询crontab任务-r删除当前用户所有的crontab任务crontab -e进入编辑模式*/1 * * * * ls -l /etc > /tmp/to.txtat定时任务at命令是一次性定时的计划任务,at的守护进程atd会以后台模式运行,检查

2021-03-31 09:15:46 273

linux--jdk和hadoop安装包.7z

linux--jdk和hadoop安装包,hadoop-3.1.4,jdk-8u261-linux-x64

2021-03-31

pythondata数据科学.7z

python数据科学手册(英文版)

2021-03-30

python可视化之美.zip

python可视化之美 --- 配套资料 内含代码

2021-03-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除