jacobwe-CSDN博客

原创 hdfs常用命令和缩写

hadoop fs -mkdirhadoop fs -ls 缩写 hlshadoop fs -cat 缩写 hcathadoop fs -du

2021-08-02 11:01:01 271

1 spark 2.3 引入了 structorstreaming , 有了微批处理，和flink 实时诧异在一个基于RDD，一个基于事件编程，都有checkpoint 注册，spark的checkpoint 需要手动设置，对于宽依赖数据，恢复数据占用消耗较大，flink只需设置check point 环境变量。2 spark= DAG + Executor + Driver + parallel + 算子 + checkpoint + cache (prisist)3 spark组建：

2021-03-31 13:56:24 130

转载短链系统

短链接系统的算法原理平时我们在上网的时候，印象最深刻的有一次是短链接的服务。例如：平时在微信上看一个网页的时候，如果我们选择在浏览器打开的时候，会看到很长的URL，我们分享的时候，会看到一个很短URL，这就是本次所说的短链接的应用之一。长链接示例：https://mp.weixin.qq.com/s?__biz=MzAxNzMwOTQ0NA==&mid=2653355437&idx=1&sn=5901826ea638462ff71b7f2d06c6331d&chksm=8

2021-02-02 22:12:25 799

原创特征工程

目前业界有句话被广为流传：“数据和特征决定了机器学习的上限，而模型与算法则是逼近这个上限而已。”因此，特征工程做得好，我们得到的预期结果也就好。那特征工程到底是什么呢？在此之前，我们得了解特征的类型：文本特征、图像特征、数值特征和类别特征等。我们知道计算机并不能直接处理非数值型数据，那么在我们要将数据灌入机器学习算法之前，就必须将数据处理成算法能理解的格式，有时甚至需要对数据进行一些组合处理如分桶、缺失值处理和异常值处理等。这也就是特征工程做的事：提取和归纳特征，让算法最大程度地利用数据，从而得到更

2020-12-03 21:21:43 144

原创多路召回1130

推荐多路召回是对各个模型出的结果进行混合排序的过程，以达到推荐结果曝光最大，一般会有基于用户兴趣，热点，内容的

2020-11-30 20:34:02 113

原创数据分析-补

补

2020-11-27 22:22:34 91

原创推荐11-25 模型评估

1 编程基础知识准备函数编程环境函数编程语言2 推荐理论知识准备协同过滤基于物品的item-cf基于用户的item-cfFM根据内容语意的词频余弦相似度：数字表达后的夹角相似度特征编码：对分类类型进行数字表示独热编码：将类别编码作为数据表达，稀疏维度过高emedding：稠密向量向量：加入方向矩阵：图片网格变成数字矩阵，销售省市数据变成数字矩阵张量：欧式距离：两点之间的距离3 模型评估均方根误差：两个向量平方相减开平方根ROC：预测结果按照正，负概率排序，绘制真正率

2020-11-26 11:20:37 179

原创 scala的flink的使用基础知识总结

flink大多使用scala编程函数型编程知识分类一，类/方法/常量1类定义object 单例模型trait 子类必须实现父类方法abstract 支持结构体2变量var 可修改val 是final 不支持修改弱类型，会根据赋值变换3 对象/函数val person = new Person()def 无需声明返回值4 数据类型描述常用数据类型unit 空无返回Null 空值Noting 所有类型子类型，空值Any 所有类型的超类5 注意点首字母大写class

2020-11-24 17:55:32 3007

原创 flink的那些事

flink开发流程一自定义source1 定义实体bean2 获取kafka里的数据3 生成流，并对gson转换问题：对类的定义以及类转换获取kafka的步骤，在测试阶段如何去自定义消费断点时间代码：//1.1case class SpeedBean(rts: Long, parserData: Long, carModelId: String, receiveDate: Long, tripId: String, sn: String, sp: Int, ts: Long,

2020-09-09 16:38:31 201

原创 AI的基本概念和数据建模调参

1监督学习：利用一组带标签的数据，学习从输入到输出的映射，然后用新数据对照映射关系得到映射结果，达到分类或回归目的D=(X, y) X:数据 y:标签学习X y的映射关系算法:线性回归、逻辑回归、朴素⻉贝叶斯、决策树、随机森林林、SVM、神经⽹网络2 非监督学习输入数据没有被标记，也没有确定的结果D=(X) ⽆无标签寻找X中的特征或规律律eg:⽤用户分层(兴趣/特征等等)，降维⼯工...

2020-04-01 23:49:03 1659

原创 EDA

一，缺失数据概要　1 .缺失原因分为无意的，有意的，不存在。2.缺失类型，缺失分为完全随机缺失，随机缺失，完全非随机缺失　3.缺失处理方法删除法,数据补充(替换补充，拟合补充)，虚拟变量，不处理二，缺失数据的类型　1，缺失分为完全随机缺失，随机缺失，完全非随机缺失　2 完全缺失- MCAR(missing completely ...

2020-03-23 22:44:32 1009

原创特征工程

特征工程 -brief特征工程一脑图1特征提取统计特征文本类型特征（tfidf,embeeding）模型特征 stacking 特征2单个特征处理归一化哑变量分箱数据变换log，指数3 多特征处理特征交叉二特征工程概念1 特征工程很重要2 从x 到 X‘ ，衍生（升维），筛选（将维）3从原始特征的分布抽取统计量拟合数据标签的分布三特征工程过程sour...

2020-03-23 13:48:06 203

原创 yarn的HA配置

yarn.resourcemanager.ha.enabledha状态切换为自动切换trueyarn.resourcemanager.ha.rm-idsrm1,rm2yarn.resourcemanager.hostname.rm1bigdata01yarn.resourcemanager.hostname.rm2bigdata02yarn.resource...

2019-10-25 15:51:05 229

原创车场景音乐推荐

车场景音乐主题推荐开车，停车，音乐的展示推荐位置。曲目 -> 流行，2轻音乐 3 古典 4 摇滚->加入热门曲目 -》推荐相似曲目 --》转按曲目艺人/专辑1 艺人画像 2 艺人的相似度专辑相似度–》二次推荐（由专辑过滤到曲目）— 协同召回 |-- 主题相似度— 用户兴趣— 热门排序 1 LR+GBDT FM FRM2 NDCG...

2019-10-05 19:15:31 257

原创 hadoop&hive的重启关闭-复习一下

查看hdfs目录结构 hdfs dfs -ls /user/hive/warehouse报错，重启hiveps -aux|grep hive 查找进程命令kill -9 2323#启动metastore服务hive --service metastore &依然不能解决，内容ip由于没有加白名单而造成namenode 和datanode 无法通信，重启hadoopsbi...

2019-08-05 10:10:31 2650

原创 mysql 导入导出dmup文件

安装szrzroot 账号登陆后执行以下命令：yum install -y lrzsz注意:rhel安装完系统后直接可使用 rz szdump文件mysqldump -u root -p 库命 > /home/bi_back.sqlsz下载文件rz上传目标服务器...

2019-08-01 22:19:48 401

原创 python 常用函数和写spark sql 的udf函数

#!/usr/bin/pythonudf 函数在调取接口的时候会有并发，可以用sleep去做时间均衡～sleep 函数的详解，程序将print “Start : %s” % time.ctime()time.sleep( 5 )print “End : %s” % time.ctime()...

2019-07-26 17:12:11 933

原创重温当年 linux 的基础架构的那些命令

useradd mattpasswd mattchown -R matt /etc 对某个目录进行权限更改

2019-07-19 16:51:03 98

原创元数据管理-hive表的数据字典表信息查询-metastore 的mysql导出

尝试了 sh 脚本的导出源数据表，导出来的都需要再加工。通过hive在mysql里的表结构可以查询，以下是查询sqlselect t.TBL_ID,c.COLUMN_NAME,COMMENT from TBLS t left join COLUMNS_V2 c on t.TBL_ID = c.CD_ID...

2019-07-18 10:34:05 583

原创 spark on yarn 的运行模式

任务提交方式sudo -u hadoop /srv/soft/spark-2.4.0-bin-hadoop2.7/bin/spark-submit –master yarn –deploy-mode cluster –num-executors 5 –driver-memory 1g –executor-memory 1g –executor-cores 1 –files /srv...

2019-07-13 17:46:19 107

原创数据仓库的建模-tinnavate物联网建模理论-良心原创

最早提出数仓建模理论从inmon 在1993年，从离散的数据仓库到集中，到主题的划分，形成了一套建模理论，包含了自顶向下，自底向上形成数据仓库，以及数据集市。物联网时代，数据爆炸后，数据的建模理论也会变化，本文对物联网的数仓建模到落地详实的给出新的建模方式，让数据仓库不仅能满足分域后的业务统计，更多的满足IOT时代如何处理数据的解耦合，以及用到边缘计算的能力。传统的ods层已经不能满足数据...

2019-07-11 20:44:33 536

原创 git 常用命令和问题汇总

git log查看代码提交的记录, 以及查看git stats查看是否有可commit 的文件，以及查看 change的文件git push HEAD:refs/for/masterpush 到数据目录到主分支git branch 查看分支目录gitdir=$(git rev-parse --git-dir); scp -p -P 29418 p_jaocbma@10.1.120...

2019-07-10 21:41:09 229

原创数据分析平台业界对比-良心博文

如果需要对比截图内容和更多对比结果文档，请评论区留言，付费可微信

2019-07-10 10:20:30 670

原创 scala的java.lang.NoSuchMethodError:scala.Predef$.refArrayOps([Ljava/lang/Object;错误

运行spark demo时出现java.lang.NoSuchMethodError:在scala中，pom文件的jar文件为2.11.7，不需要在全局变量去加载jar包，打开project的setting ，删除不需要用的setting即可...

2019-06-29 17:43:47 1826

原创 spark RDD编程实践例子

spark conf 和context 是spark 早期版本的数据生成RDD和配置 RDD的方法，在spark 2.0后出现了 sparksession 的方法来声明

2019-06-25 14:59:28 789

原创 pairwise的排序算法

在对常用地点进行排序并分类中，来进行用户行为预测的置信区间判断

2019-06-24 19:52:50 927

转载回流页

原创】为了拉新回流，各家回流页都做了些什么？2017-05-05 08:32 微信/客户端先看一组数据：根据2016版《微信数据化报告》指出，朋友圈已经成为6.5亿微信用户手机社交的主阵地，61.4%的用户几乎每次使用微信都会同步刷朋友圈，从来不看朋友圈的用户仅占比1.3%。刷新朋友圈俨然已成为我们的习惯。回流页是什么？标题中提到的回流页特指从APP内分享至第三方渠道（微信、微博、易信等）...

2019-06-21 20:23:14 2161 1

原创 flumn的配置启动和关闭

flume 的三大组件source 对应的是channel thick1 flume 配置从 log 到 hdfscat pingback_sdk_app.confp1.sources = r1p1.sinks = k1 k2p1.channels = c1 c2p1.sources.r1.type = avrop1.sources.r1.bind = w133p1.s...

2019-06-13 16:43:20 688

jacobwe的博客

原创 hdfs常用命令和缩写

原创 spark那些年

转载短链系统

原创特征工程

原创多路召回1130

原创数据分析-补

原创推荐11-25 模型评估

原创 scala的flink的使用基础知识总结

原创 flink的那些事

原创 AI的基本概念和数据建模调参

原创 EDA

原创特征工程

原创 yarn的HA配置

原创车场景音乐推荐

原创 hadoop&hive的重启关闭-复习一下

原创 mysql 导入导出dmup文件

原创 python 常用函数和写spark sql 的udf函数

原创重温当年 linux 的基础架构的那些命令

原创元数据管理-hive表的数据字典表信息查询-metastore 的mysql导出

原创 spark on yarn 的运行模式

原创数据仓库的建模-tinnavate物联网建模理论-良心原创

原创 git 常用命令和问题汇总

原创数据分析平台业界对比-良心博文

原创 scala的java.lang.NoSuchMethodError:scala.Predef$.refArrayOps([Ljava/lang/Object;错误

原创 spark RDD编程实践例子

原创 pairwise的排序算法

转载回流页

原创 flumn的配置启动和关闭

空空如也

空空如也