mosu027-CSDN博客

原创 python连hive

前言最近开始尝试tensorflow,而数据存在hive里，如何读取数据是个很大问题。网上有不少例子，不过这些例子也带来了不少坑，最终于经过九九八十一难,总算连成功了。先说说经历的坑吧坑1 使用thrift安装，在网上查了很多相关资料，貌似年代都挺久远的，不过还是试了试，参考代码如下# -*- coding: utf-8 -*-#!/usr/bin/env pythonimport sys

2017-05-18 15:04:51 10043

原创 tensorflow初试

1 前言数据来源：某游戏行为数据目的：游戏流失预测，二分类模型2 步骤基本步骤 1.从原始数据集的CSV里面读取数据，并且加载到Tensorflow当中 2.构建一个基于神经网络的分类器 3.使用训练数据进行模型训练 4.使用测试数据进行模型评估3 数据加载

2017-05-09 19:09:00 386

原创 textrank关键词提取

TextRank是在Google的PageRank算法启发下，针对文本里的句子设计的权重算法，目标是自动摘要。它利用投票的原理，让每一个单词给它的邻居（术语称窗口）投赞成票，票的权重取决于自己的票数。这是一个“先有鸡还是先有蛋”的悖论，PageRank采用矩阵迭代收敛的方式解决了这个悖论。

2017-04-07 14:12:07 1709

原创 Spark之特征工程总述

特征工程总结

2017-03-17 10:32:14 1748

原创 Spark之特征预处理

数据预处理：Z-score标准化、0-1标准化....

2017-03-16 18:39:12 945

原创 Spark之特征选择

特征选择坊间传言：数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。因此特征工程显得尤为重要。最近的工作中做了较多的特征工作，在这里做一个小小的总结。peason特征选择笔者本身统计学的，一直认为pearson也只能做做相关性分析，判断两个变量相关性什么的。在工作中刚开始并未觉得卡方特征选择效果会有多好，于是退而求其次，选择了peason,这个是spark

2017-03-16 17:56:55 1744

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人