排序:
默认
按更新时间
按访问量

python连hive

前言最近开始尝试tensorflow,而数据存在hive里,如何读取数据是个很大问题。网上有不少例子,不过这些例子也带来了不少坑,最终于经过九九八十一难,总算连成功了。 先说说经历的坑吧坑1 使用thrift安装,在网上查了很多相关资料,貌似年代都挺久远的,不过还是试了试,参考代码如下# -*...

2017-05-18 15:04:51

阅读数:6656

评论数:5

tensorflow初试

1 前言数据来源:某游戏行为数据 目的:游戏流失预测,二分类模型2 步骤基本步骤 1.从原始数据集的CSV里面读取数据,并且加载到Tensorflow当中 2.构建一个基于神经网络的分类器 3.使用训练数据进行模型训练 4.使用测试数据进行模型评估3 数据加载

2017-05-09 19:09:00

阅读数:166

评论数:0

textrank关键词提取

TextRank是在Google的PageRank算法启发下,针对文本里的句子设计的权重算法,目标是自动摘要。它利用投票的原理,让每一个单词给它的邻居(术语称窗口)投赞成票,票的权重取决于自己的票数。这是一个“先有鸡还是先有蛋”的悖论,PageRank采用矩阵迭代收敛的方式解决了这个悖论。

2017-04-07 14:12:07

阅读数:795

评论数:0

Spark之特征工程总述

特征工程总结

2017-03-17 10:32:14

阅读数:535

评论数:0

Spark之特征预处理

数据预处理:Z-score标准化、0-1标准化....

2017-03-16 18:39:12

阅读数:241

评论数:0

Spark之特征选择

特征选择       坊间传言:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。因此特征工程显得尤为重要。最近的工作中做了较多的特征工作,在这里做一个小小的总结。peason特征选择       笔者本身统计学的,一直认为pearson也只能做做相关性分析,判断两个变量相关性什么...

2017-03-16 17:56:55

阅读数:349

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭