2019年02月_涛哥带你学编程

08月 05月 03月 02月 01月

原创 Kafka入门：简介及集群搭建

- kafka简介Kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统。每条发布到kafka的消息是根据Topic进行归类，每个Topic包含一个或多个Partition，发布消息到Kafka broker的是Producer（生产者），向Kafka broker读取消息的客户端成为Consumer。Kafka...

2019-02-24 16:58:18 397

原创 Linux/Unix shell中2>&1的解释

- 背景在Flume实践学习中，看到了如下操作flume-ng agent --conf conf --conf-file flume_inc_hdfs.conf --name a1 - Dflume.root.logger=INFO,console &gt;&gt; flume.log 2&gt;&amp;1 &amp;...

2019-02-21 14:49:03 489

原创 Flume入门：简介、安装以及实践

- Flume简介Apache Flume是一个分布式、可信任的弹性系统，用于高效收集、汇聚和移动大规模日志信息从多种不同的数据源到一个集中的数据存储中心(HDFS、 HBase)支持各种接入资源数据的类型以及接出数据类型支持多路径流量，多管道接入流量，多管道接出流量，上下文路由等...

2019-02-20 15:42:40 534

原创错误: 找不到或无法加载主类 org.apache.flume.tools.GetJavaProperty

- 背景Flume安装配置完成后，在查看Flume版本时出现下图错误- 解决方案在网络上查到两种解决方案，特此记录第一种：原因：1、jdk 冲突2、安装了 hbase 就会报着个错解决：1、卸载 openjdk2、安装 jdk7.3、将 hbase 的 hbase.env.sh 的一行配置注释掉#Extra Java CLASSPATH elements. Option...

2019-02-20 12:13:10 13059 10

原创推荐系统实战中LR模型训练（二）

背景：上一篇推荐系统实战中LR模型训练（一）中完成了LR模型训练的代码部分。本文中将详细讲解数据准备部分，即将文本数据数值化为稀疏矩阵的形式。文本数据：稀疏矩阵：实现过程：文本数据格式如下：用户ID / 物品ID / 收听时长 / 收听的时间点 / 性别 / 年龄段 / 收入 / 籍贯 / 物品名称 / 物品总时长 / 物品标签LR模型在此处的目的是用户对某个物品（音乐）...

2019-02-18 16:43:01 2395

原创 vim下输入^A

背景：今天在处理文本分割的时候，碰到了分隔符^A，一时半会不知道在键盘上如何输入，特此做一个记录，方便下次忘了及时查询。方法：control+V+A...

2019-02-18 11:41:32 8966

原创推荐系统实战中LR模型训练（一）

背景：在“批量导入数据到Redis” 中已经介绍了将得到的itema item1:score1,item2:score2…批量导入到Redis数据库中。本文的工作是运用机器学习LR技术，抽取相应的特征，进行点击率的估计。点击率（Click-Through-Rate, CTR）预估点击率 (predict CTR, pCTR) 是指对某个系统将要在某个情形下展现前, 系统预估其可能的点击概率...

2019-02-17 20:02:30 6700