自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

天天学习的博客

好好学习,天天填坑

  • 博客(45)
  • 资源 (1)
  • 收藏
  • 关注

原创 pyspark学习-spark.sql.functions normal函数

【代码】pyspark学习-spark.sql.functions normal函数。

2024-01-31 22:19:30 417

原创 pyspark学习-spark.sql.functions 聚合函数

"""作用:返回该组第一个数值,和groupBy合用,会显示分组之后,各个组的第一个场景:参数:col:列名ignorenulls:是否忽略控制返回:column:返回该组第一个数值""""""作用:返回该组第最后一个数值,和groupBy合用,会显示分组之后,各个组的最后一个场景:参数:col:列名ignorenulls:是否忽略控制返回:column:返回该组第最后一个数值"""print("按照age排序前")print("按照age倒排序后")#last。

2024-01-30 23:48:01 639

原创 pyspark学习-自定义udf

【代码】pyspark学习-自定义udf。

2024-01-30 17:00:16 201

原创 pyspark学习-RDD转换和动作

【代码】pyspark学习-RDD转换和动作。

2024-01-25 23:09:56 138

原创 pyspark学习_RDD转为DataFrame

【代码】pyspark学习_RDD转为DataFrame。

2024-01-25 23:07:45 253

原创 pyspark学习_wordcount

【代码】pyspark学习_wordcount。

2024-01-25 22:46:32 103

原创 pyspark之Structured Streaming kafka

【代码】pyspark之Structured Streaming kafka。

2024-01-25 21:59:25 128

原创 pyspark学习_dataframe常用操作_02

【代码】pyspark学习_dataframe常用操作_02。

2024-01-25 14:30:54 715

原创 pyspark学习_dataframe常用操作_01

【代码】pyspark学习_dataframe常用操作_01。

2024-01-24 22:42:53 702

原创 pyspark之Structured Streaming window函数-滑动模式

【代码】pyspark之Structured Streaming window函数-滑动模式。

2024-01-21 21:45:29 386

原创 pyspark之Structured Streaming window函数-滚动模式

【代码】pyspark之Structured Streaming window函数-滚动模式。

2024-01-20 23:16:01 405

原创 pyspark之Structured Streaming file文件案例1

测试3:数据按照省份统计后,输出到控制台,分析complete和update输出模式区别,针对该问题,调整输入,province="TaiWan"只会输入1次,即如果输出方式complete,则每batch都会输出,update的话,只会出现在一个batch。# 读取DATA文件夹下面文件,按照省份统计数据,主要考虑window情况,按照window情况测试,同时针对 outputMode和输出console和mysql进行考虑,其中保存到mysql时添加batch字段。# 清理数据,恢复测试环境。

2024-01-20 22:08:14 551 1

原创 pyspark之Structured Streaming文件file案例

【代码】pyspark之Structured Streaming文件file案例。

2024-01-20 22:05:42 430

原创 pyspark之Structured Streaming结果保存到Mysql数据库-socket例子统计(含批次)

【代码】pyspark之Structured Streaming结果保存到Mysql数据库-socket例子统计(含批次)

2024-01-19 20:59:23 406

原创 pyspark之Structured Streaming结果保存到Mysql数据库

【代码】pyspark之Structured Streaming结果保存到Mysql数据库。

2024-01-17 22:22:39 428

原创 pyspark连接mysql

将mysql连接jar包放到服务器spark安装位置的jars下,同时将jar包放到java安装包的jdk/jre/lib/ext下面即可。pycharm远程连接服务器上的spark,mysql时,报错:找不到com.mysql.jdbc.Driver。

2024-01-16 15:09:47 454

原创 python strings

【代码】python strings。

2023-06-09 14:21:02 79

原创 mysql8服务启动问题

mysql8通过msi安装后服务无法启动

2023-02-19 22:49:05 653

原创 KNN算法

算法KNN的Python实现

2023-02-15 22:29:23 233

原创 mysql8连接报错:public key retrieval is not allowed

mysql8:public key retrieval is not allowed

2022-06-02 08:46:17 199

原创 修改linux时间配置

1.utpdate 时间ntpdate -u time.windows.com210.72.145.44 (国家授时中心服务器IP地址) ntp.sjtu.edu.cn 202.120.2.101 (上海交通大学网络中心NTP服务器地址) s1a.time.edu.cn 北京邮电大学 s1b.time.edu.cn 清华大学 s1c.time.edu.cn 北京大学 s1d.time.edu.cn 东南大学 s1e.time.edu.cn 清华大学 s2a.time.edu.cn

2022-02-25 11:50:04 686

原创 kettle连接Taos数据库

通过Restful形式连接Taos数据库,具体分为以下几个步骤:1. 导入lib放入kettle的lib文件夹下面2. 创建数据源3. 连接数据源即可连接数据库成功。存在问题:1.Restful默认返回10240条数据,修改taos数据库服务器端:/etc/taos/taos.cfg修改 ,重启taos数据库2. 不显示字段名称场景:1.实时数据情况 每隔30s将数据最新状态同步到oracle/mysql关系型数据库,实现模拟实时数据展现。...

2021-11-12 17:46:08 1887 8

原创 ORACLE函数动态查询返回数据集

1. 创建type(显示哪些字段就写哪些字段)CREATE OR REPLACE TYPE JG_TEST_TYPE AS OBJECT ( ID VARCHAR2 (50), IP VARCHAR2 (50))2. 创建typeCREATE OR REPLACE TYPE JG_TEST_LIST AS TABLE OF JG_TEST_TYPE;3. 创建functionCREATE OR REPLACE FUNCTION JG_GET_TABLE_TEST(param varchar2)r

2021-05-08 17:30:42 655 1

原创 flume日志

故障转移(failover)a.sources = s1a.sinks = k1 k2a.channels = c1a.sinkgroups = g1a.sources.s1.type =execa.sources.s1.command = tail -F /tmp/test.loga.sinks.k1.type = avroa.sinks.k1.hostname = localhosta.sinks.k1.port = 44444a.sinks.k2.type = avroa..

2020-10-21 16:41:12 154

原创 flume日记

概念Agent:flume的实例,本质为JVM进程event:flume定义的数据流传输的最小单元sources:数据的来源和方式channels:数据缓冲池sinks: 数据输出的方式和目的地flume常用sources\sinks\channelssources:netcat/avro/kafka/spooldir(针对文件目录上传)/TAILDIR(支持断点上传、多文件上传)sinks:logger/hdfs/hive/avro/hbase/kafkachannels:memory.

2020-10-21 10:57:49 101

原创 flume使用日记

flume安装下载,解压flume文件cd flume/confcp flume-conf.properties.template flume-conf.propertiescp flume-env.sh.template flume-env.shvi flume-env.shexport JAVA_HOME=/usr/javaflume简单编辑mkdir conf-selfvi flume-test.conf#agent:代理名 (任意起名)#配置sources源名称,配置.

2020-10-13 10:59:47 97

原创 openCV第三节

图像模糊图像模糊目的之一是为了图像预处理时降低图像噪声。图像的模糊通常利用卷积来实现。图像模糊以下几种常见的分别为:归一化均值滤波器(API:blur()),中值滤波器(meadian_blur():主要针对椒盐噪声)blur(InputArray src,//输入图像,对通道是单独处理的 OutputArray dst,//输出图像 Size ksize,//内核的大小 Point anchor = Point(-1, -1),//默认,表示锚点在核的中心 int borderTy.

2020-08-18 22:58:26 112

原创 openCV第二节

像素运算import numpy as npimport cv2#四则运算过程中:两个像素相加,如果大于255,则为255,小于0,则为0#加法def pixel_add(image,image1): image_add = cv2.add(image,image1) return image_add#减法def piexl_subtract(image,image1): return cv2.subtract(image,image1)#除法def pixel_divide(i.

2020-08-18 00:26:59 106

原创 openCV初入门第一节(python)

1.加载图片或者视频import cv2#path:文件路径:加载文件def show_image(path) image = cv2.imread(path) #创建窗口 cv2.namedWindow('image',cv2.WINDOW_AUTOSIZE) cv2.imshow(image) cv2.waitKey(40) cv2.destoryallwindow()#加载视频def show_vedio_demo(path): #path如果为0,显示调用自身摄像头 cap

2020-08-16 23:55:05 130

原创 pyTorch学习fizzbuzz训练

#定义fizzbuzz游戏def fizzbuzz_encode(i): if i%15==0:return 3 if i%5==0:return 2 if i%3==0:return 1 else:return 0def fizzbuzz_decode(i,prediction): return [str(i),'fizz','buzz','fizzbuzz'][prediction]def start(i): return fizzbuzz_decode(i,fizzbuzz_enco

2020-08-15 16:35:49 420

原创 简单的文本新闻分类

简单的一个新闻分类,利用sklearn的TfidfVectorizer(tf-idf方法),对文本进行分类,由于此处文本进行了数字编译,因此没有用jieba处理文本。附上简单代码train_data=pd.read_csv('train_set.csv',sep='\t')train_data.head().append(train_data.tail())test_data = pd.read_csv('test_a.csv',sep='\t')test_data.head().append(te

2020-07-29 22:41:00 220

原创 机器学习-决策树属性分类方法公式

主要简单介绍了ID3、C4.5、CART决策树如何确定不同属性的顺序。ID3:信息熵增益C4.5:增益率CART:gini不纯度1. ID3信息熵计算:H = sum(-Pi*log2(Pi))例子:sexagelabel05011010510100首先看label的信息熵:label分为两类:概率都是1/2,则:-2/4log2(2/4)+(-2/4)log(2/4)=1age的信息熵:age主要有5,10两类,对于age=5

2020-07-29 22:27:54 538

原创 seaborn的boxplot箱线图与数学数据不一致问题

1. 数据x = [70,71,76,78,81,83,85,86,90,93,97]2.数据一共11个数字,中位数:83,1/4位数:76,3/4位数:903.sn.boxplot(x):画图结果如下:,明显3/4中位数不是90,如果集合n为奇数时:中位数:(n+1)/2 1/4位数在第一个数到第(n+1)/2个数中间,两边都是闭集:本题:中位数为:83,1/4位数在[70,71,76,78,81,83]中间,即:(76+78)/2=77,3/4位数在[83,85,86,90,93,97]...

2020-07-08 21:58:09 1408

原创 Sklearn学习第一天:LinearRegression学习笔记

1.LinearRegression初始化参数解释fit_intercept:截距:默认True,可选择Falsenormalize:正则化:默认False,可选择True,如果fit_intercept为False,则normalize被忽视。如果normalize为True,则将特征矩阵X在进入回归之前将会被减去均值(中心化)并除以L2范式(缩放)。copy_X:是否在原矩阵上进行操作。默认Truen_jobs:计算机CPU工作核数属性:coef_:线性回归评估出的参数interce

2020-07-02 22:51:41 565

原创 windows下logstash启动情况

1. 首先下载匹配elasticsearch的logstash2. 解压logstash3. 在logstash/bin文件夹下创建logstash.confinput{ stdin{}}output{ stdout{}}4. 在logstash/bin目录下,运行logstash -f logstash.conf5. 访问localhost:9600,查...

2020-02-20 23:04:17 3304

原创 Elasticsearch简易介绍与操作

1.Elasticsearch简易介绍elasticsearch概念:索引:传统关系数据库中的一个数据库,是一个存储关系型文档的地方 类型:类似于数据库中的表 文档:类似表中的每一条数据 ...

2020-02-19 23:11:08 79

原创 ES显示问题

360浏览器显示结果问题,新建的索引未显示IE浏览器显示正常

2020-02-15 22:53:45 212

原创 初识ES3 es-head问题描述

es-head安装之后,运行es-head,集群健康值(未连接问题),则停止运行es,cmd:ipconfig,本机的ip,修改config下的elasticsearch.yml文件,将host改为ipconfig下的ip,然后访问:localhost:9100,es-head下的elasticsearch的localhost:9200/修改为ip:9200,点击连接,即可。...

2020-02-15 22:00:37 158

原创 初识ES

1. 下载Elasticsearch,kibana,解压2. 点击Elasticsearch下的bin/elasticsearch.bat,启动elasticsearch3. 启动过程中问题:1.jdk版本过低 2.java未找到(cmd下:java -version即可)4.启动elasticsearch后,访问ip:localhost:9200/,页面显示:{ "na...

2020-02-13 22:46:58 108

原创 Python常见数据结构

Python数据常见数据结构主要包括:list,dict,tuple,set,此外还包括数据分析中常用的dataframe,series。针对这些数据结构,本文主要概述常见的取列、行的方法问题。list = [1,2,3,4] 获取第i个元素:list[i]set = {1,2,3,4} 获取第i个元素:转为list,通过List获取,list(set)[0]tuple1 = tup...

2019-10-02 15:57:44 146

韩顺平hibernate3 jar包

韩顺平hibernate3 jar包

2017-03-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除