- 博客(28)
- 收藏
- 关注
原创 hdfs常用命令 和缩写
hadoop fs -mkdirhadoop fs -ls 缩写 hlshadoop fs -cat 缩写 hcathadoop fs -du
2021-08-02 11:01:01 271
原创 spark那些年
1 spark 2.3 引入了 structorstreaming , 有了 微批处理 ,和flink 实时诧异在一个基于RDD,一个基于事件编程,都有checkpoint 注册,spark的checkpoint 需要 手动设置,对于宽依赖数据,恢复数据占用消耗较大,flink只需设置check point 环境 变量。2 spark= DAG + Executor + Driver + parallel + 算子 + checkpoint + cache (prisist)3 spark组建:
2021-03-31 13:56:24 130
转载 短链系统
短链接系统的算法原理平时我们在上网的时候,印象最深刻的有一次是短链接的服务。例如:平时在微信上看一个网页的时候,如果我们选择在浏览器打开的时候,会看到很长的URL,我们分享的时候,会看到一个很短URL,这就是本次所说的短链接的应用之一。长链接示例:https://mp.weixin.qq.com/s?__biz=MzAxNzMwOTQ0NA==&mid=2653355437&idx=1&sn=5901826ea638462ff71b7f2d06c6331d&chksm=8
2021-02-02 22:12:25 799
原创 特征工程
目前业界有句话被广为流传:“数据和特征决定了机器学习的上限,而模型与算法则是逼近这个上限而已。”因此,特征工程做得好,我们得到的预期结果也就好。那特征工程到底是什么呢?在此之前,我们得了解特征的类型:文本特征、图像特征、数值特征和类别特征等。我们知道计算机并不能直接处理非数值型数据,那么在我们要将数据灌入机器学习算法之前,就必须将数据处理成算法能理解的格式,有时甚至需要对数据进行一些组合处理如分桶、缺失值处理和异常值处理等。这也就是特征工程做的事:提取和归纳特征,让算法最大程度地利用数据,从而得到更
2020-12-03 21:21:43 144
原创 推荐11-25 模型评估
1 编程基础知识准备函数编程环境函数编程语言2 推荐理论知识准备协同过滤基于物品的item-cf基于用户的item-cfFM根据内容语意的词频余弦相似度:数字表达后的夹角相似度特征编码:对分类类型进行数字表示独热编码:将类别编码 作为 数据表达,稀疏维度过高emedding:稠密向量向量:加入方向矩阵:图片网格变成数字矩阵,销售省市数据变成数字矩阵张量:欧式距离:两点之间的距离3 模型评估均方根误差:两个向量平方相减开平方根ROC:预测结果按照正,负概率排序,绘制真正率
2020-11-26 11:20:37 179
原创 scala的flink的使用基础知识总结
flink大多使用scala编程函数型编程知识分类一,类/方法/常量1类定义object 单例模型trait 子类必须实现父类方法abstract 支持结构体2变量var 可修改val 是final 不支持修改弱类型,会根据赋值变换3 对象/函数val person = new Person()def 无需声明返回值4 数据类型描述常用数据类型unit 空无返回Null 空值Noting 所有类型子类型,空值Any 所有类型的超类5 注意点首字母大写class
2020-11-24 17:55:32 3007
原创 flink的那些事
flink开发流程一 自定义source1 定义实体bean2 获取kafka里的数据3 生成流,并对gson转换问题:对类的定义 以及类转换获取kafka的步骤,在测试阶段如何去自定义消费断点时间代码://1.1case class SpeedBean(rts: Long, parserData: Long, carModelId: String, receiveDate: Long, tripId: String, sn: String, sp: Int, ts: Long,
2020-09-09 16:38:31 201
原创 AI的基本概念和数据建模调参
1监督学习:利用一组带标签的数据,学习从输入到输出的映射,然后用新数据对照映射关系得到映射结果,达到分类或回归目的D=(X, y) X:数据 y:标签 学习X y的映射关系 算法:线性回归、逻辑回归、朴素⻉贝叶斯、决策树、随机森林林、SVM、神 经⽹网络2 非监督学习输入数据没有被标记,也没有确定的结果D=(X) ⽆无标签 寻找X中的特征或规律律eg:⽤用户分层(兴趣/特征等等),降维⼯工...
2020-04-01 23:49:03 1659
原创 EDA
一,缺失数据概要 1 .缺失原因 分为无意的,有意的,不存在。2.缺失类型 ,缺失分为完全随机缺失,随机缺失,完全非随机缺失 3.缺失处理方法 删除法,数据补充(替换补充,拟合补充),虚拟变量,不处理二,缺失数据的类型 1,缺失分为完全随机缺失,随机缺失,完全非随机缺失 2 完全缺失- MCAR(missing completely ...
2020-03-23 22:44:32 1009
原创 特征工程
特征工程 -brief特征工程一 脑图1特征提取统计特征文本类型特征(tfidf,embeeding)模型特征 stacking 特征2单个特征处理归一化哑变量分箱数据变换log,指数3 多特征处理特征交叉二特征工程 概念1 特征工程很重要2 从x 到 X‘ ,衍生(升维),筛选(将维)3从原始特征的分布抽取统计量 拟合数据标签的分布三特征工程过程sour...
2020-03-23 13:48:06 203
原创 yarn的HA配置
yarn.resourcemanager.ha.enabledha状态切换为自动切换trueyarn.resourcemanager.ha.rm-idsrm1,rm2yarn.resourcemanager.hostname.rm1bigdata01yarn.resourcemanager.hostname.rm2bigdata02yarn.resource...
2019-10-25 15:51:05 229
原创 车场景音乐推荐
车场景音乐主题推荐开车,停车,音乐的展示推荐位置。曲目 -> 流行,2轻音乐 3 古典 4 摇滚->加入热门曲目 -》 推荐相似曲目 --》 转按曲目艺人/专辑1 艺人画像 2 艺人的相似度专辑相似度–》二次推荐 (由专辑过滤到曲目)— 协同召回 |-- 主题相似度— 用户兴趣— 热门排序 1 LR+GBDT FM FRM2 NDCG...
2019-10-05 19:15:31 257
原创 hadoop&hive的重启关闭-复习一下
查看hdfs目录 结构 hdfs dfs -ls /user/hive/warehouse报错,重启hiveps -aux|grep hive 查找进程命令kill -9 2323#启动metastore服务hive --service metastore &依然不能解决,内容ip由于没有加白名单而造成namenode 和datanode 无法通信,重启hadoopsbi...
2019-08-05 10:10:31 2650
原创 mysql 导入导出dmup文件
安装szrzroot 账号登陆后执行以下命令:yum install -y lrzsz注意:rhel安装完系统后 直接可使用 rz szdump文件mysqldump -u root -p 库命 > /home/bi_back.sqlsz下载文件rz上传目标服务器...
2019-08-01 22:19:48 401
原创 python 常用函数 和 写spark sql 的udf函数
#!/usr/bin/pythonudf 函数 在调取接口的时候会有并发,可以用sleep去做时间均衡~sleep 函数的详解,程序将print “Start : %s” % time.ctime()time.sleep( 5 )print “End : %s” % time.ctime()...
2019-07-26 17:12:11 933
原创 重温 当年 linux 的 基础架构的 那些命令
useradd mattpasswd mattchown -R matt /etc 对某个目录进行权限更改
2019-07-19 16:51:03 98
原创 元数据管理-hive表的数据字典表信息查询-metastore 的mysql导出
尝试了 sh 脚本的导出源数据表,导出来的都需要再加工。通过hive在mysql里的 表结构可以查询,以下是查询sqlselect t.TBL_ID,c.COLUMN_NAME,COMMENT from TBLS t left join COLUMNS_V2 c on t.TBL_ID = c.CD_ID...
2019-07-18 10:34:05 583
原创 spark on yarn 的运行模式
任务提交方式sudo -u hadoop /srv/soft/spark-2.4.0-bin-hadoop2.7/bin/spark-submit –master yarn –deploy-mode cluster –num-executors 5 –driver-memory 1g –executor-memory 1g –executor-cores 1 –files /srv...
2019-07-13 17:46:19 107
原创 数据仓库的建模-tinnavate物联网建模理论-良心原创
最早提出数仓建模理论从inmon 在1993年,从离散的数据仓库到集中,到主题的划分,形成了一套建模理论,包含了自顶向下,自底向上形成数据仓库,以及数据集市。物联网时代,数据爆炸后,数据的建模理论也会变化,本文对物联网的数仓建模到落地 详实的给出 新的建模方式,让数据仓库不仅能满足分域后的业务统计,更多的满足IOT时代如何处理数据的解耦合,以及用到边缘计算的能力。传统的ods层已经不能满足数据...
2019-07-11 20:44:33 536
原创 git 常用命令和 问题汇总
git log查看 代码提交的记录, 以及查看git stats查看是否有可commit 的文件 ,以及查看 change的文件git push HEAD:refs/for/masterpush 到数据目录到主分支git branch 查看分支目录gitdir=$(git rev-parse --git-dir); scp -p -P 29418 p_jaocbma@10.1.120...
2019-07-10 21:41:09 229
原创 scala的java.lang.NoSuchMethodError:scala.Predef$.refArrayOps([Ljava/lang/Object;错误
运行spark demo时出现java.lang.NoSuchMethodError:在scala中,pom文件的jar文件为2.11.7,不需要在全局变量去加载jar包,打开project的setting ,删除不需要用的setting即可...
2019-06-29 17:43:47 1826
原创 spark RDD编程实践例子
spark conf 和context 是spark 早期版本的数据生成RDD和配置 RDD的 方法,在spark 2.0后出现了 sparksession 的方法来声明
2019-06-25 14:59:28 789
转载 回流页
原创】为了拉新回流,各家回流页都做了些什么?2017-05-05 08:32 微信/客户端先看一组数据:根据2016版《微信数据化报告》指出,朋友圈已经成为6.5亿微信用户手机社交的主阵地,61.4%的用户几乎每次使用微信都会同步刷朋友圈,从来不看朋友圈的用户仅占比1.3%。刷新朋友圈俨然已成为我们的习惯。回流页是什么?标题中提到的回流页特指从APP内分享至第三方渠道(微信、微博、易信等)...
2019-06-21 20:23:14 2161 1
原创 flumn的配置启动和关闭
flume 的三大组件source 对应的是channel thick1 flume 配置 从 log 到 hdfscat pingback_sdk_app.confp1.sources = r1p1.sinks = k1 k2p1.channels = c1 c2p1.sources.r1.type = avrop1.sources.r1.bind = w133p1.s...
2019-06-13 16:43:20 688
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人