自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(52)
  • 资源 (1)
  • 收藏
  • 关注

原创 基于Flink和kafka整合,程序异常时自动重启恢复,来实现exactly_once(Redis幂等性)

一、解读基于flink和kafka进行整合,当程序出现异常时自动重启数据恢复。就要做checkPoint,纪录偏移量Operator State,累加的次数计入keyedState,将checkPoint数据计入StateBackEnd1、思考:当做checkPoint时程序挂掉,然后程序自动重启,那距上次ck时,这段时间读的数据,岂不是重复读取重复计算了吗?程序即使数据重读,那...

2020-03-06 00:08:35 2710 4

原创 kafka中auto.offset.reset参数略解

我们在用Flink连接kafka进行实时数据处理的时候,程序中需要配置kafka的一些参数。如下: StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); Properties properties = new Properties();...

2020-03-05 13:22:47 2372

原创 java中去除标点符号的正则表达式

去除标点符号的正则:str.replaceAll("[\\p{Punct}\\pP]","")

2020-03-02 20:25:32 1775

原创 linux中将程序启动在后台的命令

nohup 程序命令 1>/dev/null 2>&1 &比如:将hiveserver2服务启动在后台:nohup hiveserver2 1>/dev/null 2>&1 &

2020-03-02 20:23:33 454

原创 在集群间,用脚本循环拷贝文件

例如拷贝Flink文件包,至集群机器上:for i in {2..10};do scp -r flink-1.10.0/ linux0$i:$PWD;done

2020-03-01 10:06:12 270

原创 linux服务器上时间同步设置以及查看

时间同步:1、更改时区(移除默认纽约时区的文件)rm -rf /etc/localtimecp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime2、同步时间ntpdate -u ntp1.aliyun.com3、查看同步后的时间date "+%Y-%m-%d %H:%M:%S"...

2020-03-01 09:54:10 1832

原创 用户画像篇·模型标签之用户流失预测

一、流失预测意义每个企业都渴望建立和保持一个忠实的客户群,而事实是由于各方面原因不可避免的会流失一些用户。如果我们根据用户的活跃度及消费情况,判断用户的流失意向,及时对有流失趋向的用户做营销召回,这对公司来讲是非常有必要的。二、需求分析模型标签:分析模型标签我们知道,这是一个概率型的结论,如果通过一个普通的算术运算来得出的话,不会太靠谱!那该怎么办呢?要通过历史既定事实的经验(满足...

2020-02-24 23:47:21 3594 3

原创 朴素贝叶斯之自然语言语义分析(三):评论情感分类 - 差评、中评、好评

一、需求说明(1)应用背景我们在做用户画像的时候,需要获得用户对某商品、品牌的评价记录这样的事实标签。这个值获取很麻烦,不好根据一句标语得出一个分值。我们可以为评价的偏好得分,定义一个规则:好评 --> 得 5分中评 --> 得 0分差评 --> 得 - 5分(2)带来的问题业务系统中有大量的用户商品评价,存在于商品评论表中:sku_idus...

2020-02-24 00:50:27 4545

原创 朴素贝叶斯之自然语言语义分析(二):TF-IDF运行原理深入剖析-Spark手撕篇

1、TF-IDF介绍(1)意义主要用于自然语言中文本特征向量化。特征向量化方案:词的特征位置映射: Hash映射词的特征值选取:不再简单地用词频作为特征值,而改用NLP中最经典的衡量一个词在一篇文章中重要性的指标(TF-IDF)(2)核心思想这个词在一篇文章中出现的频次越高,重要性越高!在整个样本集中,含有这个词的文章数越少,这个词重要性越高!(3)计算公式TF-IDF...

2020-02-23 00:45:13 850

原创 朴素贝叶斯之自然语言语义分析(一):简单文本主题分类→手撕文本特征向量化

1、需求说明(1)经验样本数据:docid,label,docdoc0,1,苹果 官网 苹果 宣布 骁龙 安卓doc1,0,苹果 梨 香蕉 桔子 肥料 甜度doc2,0,苹果 梨 桔子 保鲜 甜度doc3,1,苹果 科技 手机 官网 宣布 安卓 骁龙(2)对下面的未知类别文档做分类预测:docid,docdoc1,苹果 香蕉 甜度doc2,苹果 手机 安卓 骁龙2、难点分...

2020-02-21 23:07:51 809

原创 朴素贝叶斯算法(快速入门)

1、NaiveBayes简介及原理(1)简介常用于分类与预测的问题,且都是概率预测。比如邮箱中每天收到大量的邮件,如何预测哪些邮件是垃圾邮件?比如一个电商网站,有大量的客户对店家或商品的评价,如何预测是好评还是中评、差评?(2)数学原理贝叶斯定理:P(A|B)=P(B|A)P(A)/P(B)意义:如果求 P( A | B) 不好直接计算,则可以通过贝叶斯定理转换成计算P( B | A...

2020-02-21 15:52:43 435

原创 用户画像篇·手撕KNN算法(K近邻)

1、KNN模型2、样本数据(1)经验样本:label,f1,f2,f3,f4,f50,10,20,30,40,300,12,22,29,42,350,11,21,31,40,340,13,22,30,42,320,12,22,32,41,330,10,21,33,45,351,30,11,21,40,341,33,10,20,43,301,30,12,23,40,331...

2020-02-20 01:07:30 788

hadoop-commond(hadoop.dll)各个版本.rar

可解压至win上,hadoop.dll的各个版本,spark本地跑时可以用这个hadoop,hadoop版本不一致容易报错

2020-08-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除