普吉岛扫盲攻略

(转自同学公众号) 普吉岛扫盲攻略(仅适用初级驴友,高级慎入) 原创: iEvent kikyocode  本攻略内容初级,地点泰国普吉岛,内容主要为自由行,不包含跟团事项和景点介绍,不包含免税店购物指南,此文送给想去泰国玩的朋友和同事。为什么选择泰国?因为我有一天看了一个泰剧,正好赶上北京...

2019-01-25 11:37:44

阅读数 178

评论数 0

特征工程

内容整理自网上

2019-01-25 11:32:38

阅读数 31

评论数 0

数据分析大框架

内容整理自网上

2019-01-25 11:31:20

阅读数 71

评论数 0

数据分析之电商数据分析基础指标体系

图片内容整理自网上 

2019-01-25 11:29:16

阅读数 109

评论数 0

kaggle API(windows)

kaggle出了一个api,下载数据比较方便了 官方地址:https://github.com/Kaggle/kaggle-api 一,安装kaggle 直接pip install kaggle 即可 二,下载kaggle.json文件 登录你的kaggle https://www....

2018-10-10 10:41:28

阅读数 624

评论数 0

数据挖掘之数据探索

  以上为个人整理资料,资料来源百度。 

2018-09-25 16:08:18

阅读数 145

评论数 0

linux命令一些常用总结

1,ftp上传/下载shell: #!/bin/bash ftp -n<<! open 10.139.0.130  --打开连接ftp IP user odsftp AhvRab5!  --用户名和密码 prompt off  --关闭密码询问...

2018-08-14 16:05:20

阅读数 88

评论数 0

pyspark脚本并行执行

最近一个模型在预测数据时因为数据量太大而速度很慢,想要做成并行,结果不知道怎么动态命名变量。 最后选择动态传入驱动程序名称得以解决 代码如下:#导入所需模块 from pyspark import SparkContext,SparkConf from pyspark.sql import H...

2018-01-05 16:53:28

阅读数 911

评论数 0

kaggle菜鸟-Mercari

kaggle菜鸟入门kaggle上一个预测商品价格的featured级比赛, 描述:预测一个商品的价格 数据情况: train_id or test_id - 训练数据和测试数据的id name - 商品名称 item_condition_id - the condition of th...

2018-01-02 18:02:04

阅读数 547

评论数 0

数据结构 僵尸问题

数据结构 僵尸问题有1个人和99个僵尸,僵尸吃了人就会恢复成人类,一个人可以让两个僵尸吃,但是被僵尸吃了人就会死掉。问:最后可以活下来的人有多少个? 解: 这个问题可以有二叉树解决,或者的人是二叉树的头,当一个结点有父节点时,父节点一定会被子节点吃掉,也就是只要有子节点的结点,就是被僵尸吃...

2017-11-30 15:40:36

阅读数 140

评论数 0

kaggle 入门

kaggle 入门1,注册kaggle账号 以前从来没有接触过kaggle,有次在某乎上看到还有这东西,于是注册了账号准备试试。 注册的时候邮件验证显示不了验证码,在网上看到说是要翻墙才能看到。于是让能翻墙的同学给我填的验证码。 注册之后就随便摸索一下里面的布局和内容 找一个经典入门项...

2017-09-28 17:51:29

阅读数 543

评论数 0

Window下安装GraphViz用PyCharm调用

1,下载 官网下载,路径:http://www.graphviz.org/Download_windows.php 2,安装 下载msi然后安装,很简单,一路next, 记住安装路径,后面会设置环境变量 3,设置环境变量 将安装路径添加到环境变量中 4,pip ...

2017-09-01 15:44:35

阅读数 1964

评论数 0

PLSQL连接32位Oracle客户端

第一步: 下载oracle简易版客户端 地址:http://download.csdn.net/download/kandeet/4282943 解压后目录如下图: 配置环境变量: 变量名:TNS_ADMIN 变量值:D:\oracle\product\10.2.0\client_1\NET...

2017-08-25 17:19:30

阅读数 1446

评论数 0

机器学习实战读书笔记-第一章k-近邻算法

才开始看机器学习实战这本书,确实有些晚了,还只能在碎片时间来看,不过确实非常有用 接下来按照书上的例子实际操作了一遍,源代码和数据在书前面的链接里就能找到 我用的python3+win8.1 第一章 k-近邻算法 1.工作原理是:存在一个样本数 据集合,也称作训练样本集,并且样本集中每个...

2017-07-14 11:50:38

阅读数 186

评论数 0

PyCharm运行Scrapy小示例

1.新建一个Scrapy项目 目录结构如下所示: 2.打开pyCharm选择open 选择刚新建的项目->ok 然后Alt+1 下图为目录结构 3.定义Item 官网上的代码 在tutoria...

2017-06-20 19:23:35

阅读数 1356

评论数 0

安装Anaconda+Scrapy出现的问题

CondaHTTPError: HTTP None None for url <https://repo.continuum.io/pkgs/free/win- 64/repodata.json.bz2> Elapsed: None

2017-06-18 09:50:37

阅读数 4826

评论数 0

hive错误锦集

我的hive错误锦集-1 性能问题: 一个条件的错误 在去年写了一个hive脚本,今年需求有变,条件细分。于是脚本改动较大,也没有考虑太多就开始改动。完成后测试运行速度,发现运行时间为改动前的三倍,当时需求很急,草草跑出数据提交了。 后来又需要该脚本来用,才想起来效率问题,于是开始研究速度慢下来的...

2017-03-15 11:43:54

阅读数 239

评论数 0

数据分析之数据预处理

数据预处理步骤及方法 1、缺失值处理 1.1、造成缺失值原因 缺失值处理原则:使用最可能的值代替缺失值,使缺失值与其他数值之间的关系保持最大。 缺失值处理的方法很多,比如删除记录、均值填充、中位数填充等,具体方法如表1所示。 2、异常值处理 异常值是数据集中偏离大部分数据的数据...

2017-03-06 18:01:53

阅读数 9989

评论数 1

hive查询,连接left join、inner join

1、创建表1.1、直接将一个表里的字段查出来放到新建的表中,字段hive会自动建好。create table temp_table stored as rcfile asselect id, name, age, schoolfrom table1where id=xxx;1.2、将表字段创建好,...

2016-12-08 10:15:28

阅读数 13545

评论数 2

hive优化

学习笔记: hive优化 1.join查询操作的基本原则:应该将条目少的表/子查询放在join操作符的左边,原因是在join操作的Reduce阶段,位于join操作符左边的表内容会被加载进内存,将条目少的表放在左边,可以减少发生内存溢出错误的几率。 2、group by 优化 数据倾斜聚合...

2016-11-28 12:54:23

阅读数 221

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭