大数据生态
与大米一起成长
年轻时创业做pc端外卖网站,大数据行业工作10年后,第二次创业
展开
-
HashTag在内容平台的应用
形式就是大家在各类图文平台(微博、小红书),短视频平台(抖音、微信、快手),发布内容时,可以设置的话题标签,通常是“#,$,-”等。用途对用户来说,就是标注关键词语和话题,把发布的内容归类到某个话题标签下。通常可以有更多的露出。对于平台来说,主要用于聚合和归类,将视频内容结构化。平台为什么要设置HashTag引导用户关注发布者的话题领域,连接更多的人,对一个人感兴趣,比对某个视频感兴趣,预期更低,粘性更高。搜索内容,尤其是对短视频来说,让视频有了更多结构化的内容,更容易被搜索发现。可以形成原创 2021-06-23 15:49:53 · 676 阅读 · 0 评论 -
搭建推荐系统,掌握机器学习
说明大多数推荐系统学习,要么讲解算法,要么讲解理论。这里,我们结合python和pgsql数据库,从0开始搭建一个电影推荐系统。数据库操作(pgsql)创建一个数据库用户,用于管理推荐系统相关数据库对象create user hrjlk_recomm with password '123456';创建表空间,用于存储推荐系统相关的数据create tablespace ts_recomm_data owner hrjlk_recomm location '/Users/../data_ts/原创 2020-09-01 20:34:54 · 256 阅读 · 0 评论 -
数据仓库复兴-数据来源
一、数据仓库的数据从哪里来 1.数据仓库产生数据吗?据仓库本身是不产生数据的,当然了,可能有人会说,如果数据仓库不产生数据,那报表是什么?从哪来的?然后,这时候会再跳出一个人来说(我天朝确实人多哈),报表那是数据仓库加工产生的。上面的一段话,我划分为两个问题,首先来说第一个。现在普遍见到的数据仓库的应用,可能就是报表了,各种日报、周报、月报、季度。。。还有银行的年终结转之类的。其...原创 2015-04-26 21:32:19 · 998 阅读 · 1 评论 -
hadoop2.5.2加节点
hadoop加扩容加节点是很常见的场景。网上有很多说法,可以冷加(需要重启,也叫动态加),可以热加(不需要重启,也加静态加)。个人亲测了几种方案,总结如下: 加节点不重启,风险很高。 首先来说加节点的步骤: 1.准备服务器,这里我用的是云机器,所以镜像一台以前的旧的datanode就可以了,省去了复制hadoop文件的麻烦。如果是新增机器,需要把已有的datanode节点上的ha原创 2016-09-12 19:20:03 · 487 阅读 · 0 评论 -
presto部署
背景 presto又是facebook开源的一个分布式查询引擎查询效率比hive高很多。具体的说明可以看http://tech.meituan.com/presto.html,不错的实践说明。单机部署 1.jdk安装1.8版本,并配置环境变量。 2.最好建一个presto用户,可选。 3.下载安装包 http://search.maven.org/remotecon原创 2016-09-20 19:25:27 · 1989 阅读 · 0 评论 -
airpal部署
1.clone项目 https://github.com/airbnb/airpal.git2.编译项目 ./gradlew clean shadowJar or ./gradlew -Dairpal.prestoVersion=0.90 clean shadowJar (制定对应的版本)3.创建mysql的用户和数据库 insert into my翻译 2016-10-18 12:14:13 · 1189 阅读 · 0 评论 -
SparkRdd官档翻译(Python)
RDD程序开发指南概述从较高的层面来看,每一个Spark应用都包含运行用户main方法和执行各种并行操作的Driver程序。Spark最主要的抽象概念是分布式数据集,它是可以执行并行操作且跨集群节点的分区的元素集合。RDD可以从Hadoop文件系统中创建(其他任何Hadoop支持的文件系统),或者一个当前存在于Driver程序中的Scala集合,及其通过转换来创建一个RDD。我们也可以请求S...翻译 2018-11-22 16:14:52 · 315 阅读 · 0 评论 -
ElasticSearch6.X操作指南(一)
0.入门简单安装下载对应版本的软件包后cd elasticsearch-<version>./bin/elasticticsearch如果你想把 Elasticsearch 作为一个守护进程在后台运行,那么可以在后面添加参数 -d。如果你是在 Windows 上面运行 Elasticseach,你应该运行 bin\elasticsearch.bat 而不是 bin\el...原创 2019-03-21 16:09:29 · 806 阅读 · 0 评论