关闭

python连hive

前言最近开始尝试tensorflow,而数据存在hive里,如何读取数据是个很大问题。网上有不少例子,不过这些例子也带来了不少坑,最终于经过九九八十一难,总算连成功了。 先说说经历的坑吧坑1 使用thrift安装,在网上查了很多相关资料,貌似年代都挺久远的,不过还是试了试,参考代码如下# -*- coding: utf-8 -*-#!/usr/bin/env python import sys...
阅读(920) 评论(2)

tensorflow初试

1 前言数据来源:某游戏行为数据 目的:游戏流失预测,二分类模型2 步骤基本步骤 1.从原始数据集的CSV里面读取数据,并且加载到Tensorflow当中 2.构建一个基于神经网络的分类器 3.使用训练数据进行模型训练 4.使用测试数据进行模型评估3 数据加载...
阅读(98) 评论(0)

textrank关键词提取

TextRank是在Google的PageRank算法启发下,针对文本里的句子设计的权重算法,目标是自动摘要。它利用投票的原理,让每一个单词给它的邻居(术语称窗口)投赞成票,票的权重取决于自己的票数。这是一个“先有鸡还是先有蛋”的悖论,PageRank采用矩阵迭代收敛的方式解决了这个悖论。...
阅读(265) 评论(0)

Spark之特征工程总述

特征工程总结...
阅读(255) 评论(0)

Spark之特征预处理

数据预处理:Z-score标准化、0-1标准化.......
阅读(151) 评论(0)

Spark之特征选择

特征选择       坊间传言:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。因此特征工程显得尤为重要。最近的工作中做了较多的特征工作,在这里做一个小小的总结。peason特征选择       笔者本身统计学的,一直认为pearson也只能做做相关性分析,判断两个变量相关性什么的。在工作中刚开始并未觉得卡方特征选择效果会有多好,于是退而求其次,选择了peason,这个是spark...
阅读(256) 评论(0)
    个人资料
    • 访问:1969次
    • 积分:77
    • 等级:
    • 排名:千里之外
    • 原创:6篇
    • 转载:0篇
    • 译文:0篇
    • 评论:2条
    文章分类
    文章存档
    最新评论