自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 以杭州市历史气温数据搜集为例,介绍八爪鱼的使用

以杭州市历史气温数据搜集为例,介绍八爪鱼的使用注意:八爪鱼免费版只能最多到处采集到的10000条数据,如果想要无限量的使用,需要每月48元购买专业版。http://www.bazhuayu.com/ 完成模板设置,点击下一步即可采集。如果想要每日重复采集,可以设置定时功能;如果想要采集其他省份城市的数据,可以copy相应的

2016-01-30 16:58:45 3046 1

原创 业务分析(1)——杭州市2015年是否存在暖冬现象

业务分析(1)——杭州市2015年是否存在暖冬现象1、业务分析需求:获取杭州市历史每日气温数据,判断2015年是否存在暖冬现象,并分析气温是否对淘宝2015冬季GMV下降产生了影响。 2、数据来源:http://tianqi.2345.com/wea_history/58457.htm记录了杭州市2011年1月至今的每日气温数据。 3、爬虫工具选取:http:/

2016-01-30 16:50:56 1228

原创 无线术语和无线数据指标

无线术语和无线数据指标常用指标1  —— 用户基础新增用户数     统计期间首次启动应用的独立用户数活跃用户数    统计期间启动应用的独立用户数,含首次启动登录会员数     统计期间登录过应用的独立会员数新注册会员数         统计期间通过应用新注册的独立会员数累计用户数     截至到统计期末启动应用的独立用户数

2016-01-18 10:55:33 910

原创 HiveSql(3)HiveSQL与oracle SQL的区别

HiveSQL与oracle SQL的区别1、hive sql暂时不能使用in,不支持where字句中的子查询。可以利用leftsemi join来实现in。Hive:Select * from employee e left semi joindept d on (e.deptno=d.deptno)小表放在join左边。Left semi join是in/exist在hiv

2016-01-13 21:22:05 10113

原创 HiveSql(2)Lateral view_转行为列

Lateral view_转行为列业务需求:搜索展现表A,表示在搜索一个关键词后,展现出来的商品的列表,一个用逗号分隔的list。但是现在需要解析出list中所有item_id进行分析,此时需要用到lateral view。举例如下:A(session_id, se_keyword string, item_list string)101,功夫熊猫,(1001,1002,100

2016-01-12 10:26:10 1311

原创 HiveSql(1)mapjoin、分区表

mapjoin、分区表、不等值匹配业务需求:A表,小表,穷举的100个动漫电影的IP,表结构ip(id  string, key  string)B表,大表,每天的交易数据,上亿条,表结构order(ds string, item_titlestring,buyer_id string, fee string)现在想要得到这100个动漫电影相关产品的每天的销售额、购买人数。

2016-01-08 17:10:08 1609 2

原创 入职阿里巴巴数据分析师——我的10个关键转折点

入职阿里巴巴数据分析师——我的10个关键转折点 概要:211市场营销本科——985信息管理硕士——阿里巴巴数据分析师,我用了1年时间实现我的目标。作为一名热爱数据分析、通过努力拿到心仪offer的学生,是许许多多通过努力实现目标的学生中的普通一员。一路走来,我把自己的经历按照时间线写下来,中间穿插我的经验,在记录自己工作的同时,希望能给想要进入数据分析师岗位的学弟学妹们一点点的小收

2016-01-05 14:39:03 34846 19

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除