排序:
默认
按更新时间
按访问量

内容推荐-文本与画像

1. 文本也能用于画像? 2. 用物品画像丰富用户画像 2.1 结构化文本 2.1.1 TF-IDF 2.1.2 TextRank 2.1.3 内容分类 2.1.4 实体识别 2.1.5 聚类 2.1.6 Embedding 2.2 标签选择 2.2.1 卡方检验 2.2.2 信息增益 ...

2018-05-28 19:49:44

阅读数:360

评论数:0

用户画像-User Profile

@ 2018-05-27 1. 用户画像 1.1 什么是用户画像? 1.2 用户画像与推荐系统的关系 2. 用户画像的关键因素 3. 用户画像的构建方法 1. 用户画像 1.1 什么是用户画像? 用户画像常见对应两个英文词Personas和User Profile,...

2018-05-27 12:00:59

阅读数:1315

评论数:0

Hive分区表实战

@2018-03-13 1. Hive分区表 2. 静态分区 应用场景1 应用场景2 应用场景3 2. 动态分区 应用场景1 应用场景2 应用场景3 3. 修改分区 1. 添加分区 2. 重命名 3. 交换分区 4. 恢复分区 5. 删除分区 1. Hive分区表 ...

2018-03-13 12:25:50

阅读数:86

评论数:0

PyCharm+PySpark远程调试的环境配置

@ 2018-03-03 1. 远程Spark集群环境 2. 本地PyCharm配置 前言:前两天准备用 Python 在 Spark 上处理量几十G的数据,熟料在利用PyCharm进行PySpark远程调试时掉入深坑,特写此博文以帮助同样深处坑中的bigdata&...

2018-03-03 14:48:02

阅读数:1428

评论数:4

json处理工具jq

@ 2018-03-01 jq工具可以检查JSON的合法性,并把JSON格式化成更友好更可读的格式。 将一团乱麻的JSON格式化成个更可读的形式,原始json文件jsonTest数据如下: {"_location":"(32.12...

2018-03-01 15:17:33

阅读数:366

评论数:0

数据预处理——抽样

@ 2018-02-08 有效抽样 抽样方法 1 简单随机抽样 3 系统抽样 2 分层抽样 3 渐进抽样 抽样是一种选择数据对象子集进行分析的常用方法。在统计学中,抽样长期用于数据的实现调查和最终的数据分析;在数据挖掘中,抽样也非常有用。然而在统计学和数据挖掘中,抽样...

2018-02-08 11:16:45

阅读数:691

评论数:0

CentOS 6 安装 XGBoost

@ 2017-11-27 CentOS 6 上已经有Python 2.6和Python 2.7两个版本,现需要安装xgboost包 升级系统的GCC yum install gcc 安装Anaconda 根据系统具体配置下载,大约500多MB 下载后运行sh Anaconda2-5...

2018-02-08 08:45:29

阅读数:125

评论数:0

熵权法

@20171107 熵权法的原理 1 信息熵Information Entropy 2 熵权法 熵权法的计算步骤 1 确定指标体系 2 数据预处理 3 归一化处理 4 计算指标的熵和权 5 指标加权计算得分 总结 示例 1 熵权法的原理 1.1 信息熵...

2018-02-08 08:37:26

阅读数:10019

评论数:0

数据预处理——离散化

@ 2018-02-07 什么是数据离散化 非监督离散化 监督离散化 1. 什么是数据离散化 有些数据挖掘算法,特别是某些分类算法(如朴素贝叶斯),要求数据是分类属性形式(类别型属性)这样常常需要将连续属性变换成分类属性(离散化,Discretization)。另外,如果一...

2018-02-08 08:28:37

阅读数:428

评论数:0

同时使用两个账号分别操作Github和Gitlab

配置 Git 用户名邮箱 生成 ssh key 上传到 GithubGitlab 配置 config 文件 上传public key 到 GithubGitlab 验证是否OK 一般开发人员在公司工作需要用公司内部的gitlab,自己喜欢写一点小代码则会用到github,如何在一台机...

2018-02-01 17:52:42

阅读数:1973

评论数:0

【Note】Python入门基础

基础语法规则 标识符命名 BIFs自带电池 Python的标准运算符 循环与判断 判断 Python标准数据类型 Pyhon 字符串类型 练习题 此文作为Python基础的第一个笔记是对Python基础语法的一个总括,比较基础,基本所有Python教材的开篇都是讲的这些内容,下面的代...

2018-01-29 14:34:43

阅读数:180

评论数:0

【ML笔记 1】sklearn和机器学习实战

@ 2018-01-24 机器学习基础知识 sklearn入门宝典 sklearn建模实战 1 KNN 2 SVM 3 网格搜索交叉验证 1 机器学习基础知识 从过去的大量数据中“总结”出来“泛化规律”,用于新数据预测。 3种不同类型的机器学习 有监督学习,...

2018-01-24 17:40:11

阅读数:268

评论数:0

Python推荐系统库——Surprise

@ 2018-01-24 Surprise 简单易用同时支持多种推荐算法 其中基于近邻的方法协同过滤可以设定不同的度量准则 支持不同的评估准则 使用示例 基本使用方法如下 载入自己的数据集方法 算法调参让推荐系统有更好的效果 在自己的数据集上训练模型 首先载入数据 使用不同的推荐系...

2018-01-24 09:12:11

阅读数:10589

评论数:8

Hive与HBase集成实践

@ 2016-05-30 具体步骤 拷贝jar包 在Hive的类路径中添加一些这些jar包 Hive集成HBase的原理 Storage Handler 使用 字段映射 示例 多列和列族 Hive的Map字段与HBase列族 问题汇总 向集成表中插入数据时报错 ...

2018-01-24 08:53:38

阅读数:125

评论数:0

Hive on Spark配置

@ 2016-05-30 修改HIVE_HOMEconfhive-sitexml 添加spark-assembly包 额外添加几个jar包 附 编译spark-assembly包 Hive on Spark,基于Spark的Hive,实质上是将Hive默认的计算引擎Map...

2018-01-22 19:36:21

阅读数:866

评论数:0

Apache CarbonData 1.0.0 编译部署 on Mac OS

@ 2017-02-04 安装Apache Thrift 1 安装Boost 2 安装libevent 3 编译Apache Thrift 编译CarbonData 1 Clone CarbonData 2 maven源切换 3 Build CarbonData 在Standalo...

2018-01-22 19:33:07

阅读数:112

评论数:0

【Note】推荐系统冷启动问题

冷启动问题的描述 分类 解决方案 利用用户注册信息 选择合适的物品启动用户兴趣 利用物品内容进行推荐 引入专家知识 @ 2018-01-15 学习项亮博士《推荐系统实践》第三章的笔记。 1 冷启动问题的描述 分类 用户冷启动,登录/注册到网站的新用户没有...

2018-01-21 22:33:30

阅读数:98

评论数:0

推荐系统相关的Paper

几篇对工业界比较有影响的论文 推荐两篇必看最好能自己实现论文 当前推荐系统所面临的挑战相关研究 AAAI 2018 录用推荐系统相关的部分Papers Reference 几篇对工业界比较有影响的论文 The Wisdom of The Few 豆瓣阿稳在介绍豆瓣猜的时候极力...

2018-01-21 22:28:39

阅读数:971

评论数:0

Kylin中的Cube构建

Kylin 中的CUBE构建 Kylin 中的CUBE构建 前言 入口介绍 BUILD步骤 1 计算cuboid文件 生成原始数据Create Intermediate Flat Hive Table 创建事实表distinct column文件Extract Fact Table Dist...

2018-01-21 22:12:59

阅读数:179

评论数:0

多个 Kylin 服务

多个 Kylin 服务 多个 Kylin 服务 Kylin Server modes 设置多Kylin REST服务 1. Kylin Server modes Kylin实例是可以无处不在的,其运行时状态保存在$KYLIN_HOME/conf/kylin.prope...

2016-03-08 17:04:46

阅读数:1743

评论数:1

提示
确定要删除当前文章?
取消 删除
关闭
关闭