- 博客(6)
- 收藏
- 关注
原创 python连hive
前言最近开始尝试tensorflow,而数据存在hive里,如何读取数据是个很大问题。网上有不少例子,不过这些例子也带来了不少坑,最终于经过九九八十一难,总算连成功了。 先说说经历的坑吧坑1 使用thrift安装,在网上查了很多相关资料,貌似年代都挺久远的,不过还是试了试,参考代码如下# -*- coding: utf-8 -*-#!/usr/bin/env pythonimport sys
2017-05-18 15:04:51 9895 5
原创 tensorflow初试
1 前言数据来源:某游戏行为数据 目的:游戏流失预测,二分类模型2 步骤基本步骤 1.从原始数据集的CSV里面读取数据,并且加载到Tensorflow当中 2.构建一个基于神经网络的分类器 3.使用训练数据进行模型训练 4.使用测试数据进行模型评估3 数据加载
2017-05-09 19:09:00 325
原创 textrank关键词提取
TextRank是在Google的PageRank算法启发下,针对文本里的句子设计的权重算法,目标是自动摘要。它利用投票的原理,让每一个单词给它的邻居(术语称窗口)投赞成票,票的权重取决于自己的票数。这是一个“先有鸡还是先有蛋”的悖论,PageRank采用矩阵迭代收敛的方式解决了这个悖论。
2017-04-07 14:12:07 1569
原创 Spark之特征选择
特征选择 坊间传言:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。因此特征工程显得尤为重要。最近的工作中做了较多的特征工作,在这里做一个小小的总结。peason特征选择 笔者本身统计学的,一直认为pearson也只能做做相关性分析,判断两个变量相关性什么的。在工作中刚开始并未觉得卡方特征选择效果会有多好,于是退而求其次,选择了peason,这个是spark
2017-03-16 17:56:55 1592
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人