Lenskit

逆水行舟 不进则退

Python机器学习及实践——进阶篇1(特征提升之特征抽取)

在前面的一系列文章中,已经介绍了大量经典的机器学习模型,并且使用python语言分析这些模型在许多不同现实数据上的性能表现。细心的读者会发现一个问题,我们之前使用的数据几乎都经过了规范化处理,而且模型也大多只是采用了默认的初始化配置。换言之,尽管我们使用经过处理后的数据,在默认配置下学得一套可以拟...

2019-03-23 13:10:01

阅读数 98

评论数 0

用TensorFlow来实现梯度下降

本篇我们尝试使用批量梯度下降。 首先我们将通过手动计算梯度来实现,然后使用TensorFlow的自动扩展功能来使TensorFlow自动计算梯度,最后我们将使用几个TensorFlow的优化器。 使用梯度下降时,首先要对输入特征向量进行归一化,否则训练会慢很多,可以使用TensorFlow,n...

2019-03-19 20:22:55

阅读数 38

评论数 0

tensorflow报错Can not squeeze dim[1], expected a dimension of 1, got n for解决办法

这是因为tf的文档要求label必须是一个单独的值,而不是一个one-hot编码后像[1,0,0], [0,1,0], [0,0,1].的值。

2019-03-08 11:36:18

阅读数 631

评论数 0

运行你的第一个TensorFlow程序

如果你已经安装了anaconda,可以直接使用pip来安装TensorFlow。 安装命令: pip install --upgrade tensorflow 如果你有gpu,需要安装tensorflow-gpu而不是tensorflow。运行下面的命令来测试是否安装成功: pytho...

2019-03-06 10:47:24

阅读数 62

评论数 0

python使用graphviz工具画图

本示例数据集为鸢尾花数据集,运行后会生成两个文件,一个是iris,一个是iris.pdf。 from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier from sklearn.t...

2019-02-28 16:56:03

阅读数 104

评论数 0

hive中对带分号的字符串做split分割

直接对字段进行split(';')操作会报错,其原因是因为:分号默认是sql的结束字符,因此需要用分号的二进制\073来表示。 如果此时对字段进行此操作是没有问题的,比如: -- column1里的字符串是以分号分割的 select split(column1,'\073') from xx...

2019-02-26 14:39:55

阅读数 171

评论数 0

presto和hive将查询结果保存到本地的方法

Insert overwrite LOCAL directory 'file:///xx/xx/xxx' ROW format delimited fields terminated BY "\t" 上面是hive中将查询语句的结果插入到文件夹的方法。 presto的方法如...

2019-01-28 13:29:58

阅读数 264

评论数 0

presto列转行

原数据有一列数据为[1,2] , [0,2]这样,需要统计每种类别具体的占比,所以需要行转列。 由于数据在hive中,建表人员为了导数方便将字段类型设置成了string,而presto的列转行函数只能处理Array格式,尝试了一波cast as array,均以失败告终。 一怒之下直接用两次r...

2019-01-17 10:16:06

阅读数 470

评论数 0

Python机器学习及实践——特征降维

特征降维是无监督学习的另一个应用,目的有两个:一是我们经常在实际项目中遭遇特征维度非常高的训练样本,而往往无法借助自己的领域知识人工构建有效特征;二是在数据表现方面,我们无法用肉眼观测超过三个维度的特征。因此特征降维不仅重构了有效的低维度特征向量,同时也为数据展现提供了可能。PCA是最为经典和实用...

2018-12-16 13:04:11

阅读数 400

评论数 0

用python连接hive和presto并进行查询和插入

安装pyhive,连接presto并用pandas读取: ​import pandas as pd from sqlalchemy.engine import create_engine from pyhive import hive # 准备语句 sql = "sele...

2018-12-12 15:51:39

阅读数 594

评论数 0

代码测试通过,振奋人心的消息!

效果图: 代码如下: print(""" ,@@@@@@@@@@,,@@@@@@@% .#&@@@&&.,@@@@@@@@@@, %@@...

2018-12-07 11:18:59

阅读数 75

评论数 0

Python机器学习及实践——无监督学习经典模型(K-means)

无监督学习着重于发现数据本身的分布特点。与监督学习不同,无监督学习不需要对数据进行标记。 从功能角度讲,无监督学习模型可以帮助我们发现数据的“群落”,同时也可以寻找“离群”的样本;另外对于特征维度非常高的数据样本,我们同样可以通过无监督的学习对数据进行降维,保留最具有区分性的低纬度特征。 数据...

2018-11-17 19:27:53

阅读数 225

评论数 0

记录——python将一行的文本拆成多行

https://zhuanlan.zhihu.com/p/28337202 非常有用,记录。

2018-10-29 17:23:08

阅读数 521

评论数 0

Python机器学习及实践——基础篇12(集成模型)

在之前的集成模型(分类)中,探讨过集成模型的大致类型和优势。本篇除了继续使用普通随机森林和提升树模型的回归器版本外,还要补充介绍随机森林模型的另一个变种:极端随机森林。与普通的随机森林模型不同的是,极端随机森林在每当构建一棵树的分裂节点的时候,不会任意地选取特征;而是先随机收集一部分特征,然后利用...

2018-10-20 16:59:55

阅读数 118

评论数 0

Python机器学习及实践——基础篇11(回归树)

回归树在选择不同特征作为分裂节点的策略上,与基础篇6的决策树的思路类似。不同之处在于,回归树叶节点的数据类型不是离散型,而是连续型。决策树每个叶节点依照训练数据表现的概率倾向决定了其最终的预测类;而回归树的叶节点确实一个个具体的值,从预测值连续这个意义上严格地讲,回归树不能成为“回归算法”。因为回...

2018-10-20 11:07:00

阅读数 118

评论数 0

hive中多行合并一行concat_ws(去重及不去重)

原始数据: id  score aaa  1 aaa  2 aaa  3 预期结果: id  score aaa 1,2,3 可使用 select id,concat_ws(',',collect_set(cast(colname as string))) from ...

2018-10-09 14:56:38

阅读数 1134

评论数 0

mac安装scala并配置intelliJ IDEA

这篇博客主要介绍mac安装scala并且配置intelliJ IDEA 0、安装jdk 安装完在终端输入java -version有输出表示安装成功。 1、下载scalahttp://www.scala-lang.org/download/ 2、安装后配置环境变量(此处需在用户的目录下进行...

2018-09-29 15:23:31

阅读数 291

评论数 0

presto计算日期间隔天数或者小时间隔——date_diff函数使用

“Presto是Facebook最新研发的数据查询引擎,可对250PB以上的数据进行快速地交互式分析。据称该引擎的性能是 Hive 的 10 倍以上。”,亲身用过之后,觉得比hive快了10倍不止。 hive中查询日期间隔的函数是datediff: select datediff('2018...

2018-09-28 15:32:02

阅读数 4480

评论数 0

Hive 行转列LATERAL VIEW explode使用方法

原数据表a,每列都是由逗号分隔的字符串: bb_id 1,2,3 1,1 2,3 我们需要的是 bb_id 1 2 3 1 1 2 3 使用LATERAL VIEW explode函数可进行行转列 select bb_id2 from a LATERAL VIEW e...

2018-09-14 11:44:17

阅读数 175

评论数 0

hive查询时字段带有特殊符号解决办法

最近遇到的问题,由于hive字段是“$id”,在hive中运行时需要判断是否为空,使用反引号来做判断`$id` is null,没有问题。 但是因为我要在shell里循环多个日期跑,使用hive -e "语句"时,却报错,最后排查是因为hive -e后面接双引...

2018-08-10 17:29:12

阅读数 2860

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭