自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 淘宝用户行为分析——用户画像

数据介绍数据集是淘宝一个月的用户行为数据,数据包括user_id,item_id,behavior_type,user_geohash,item_category,time六个字段,共有100多万条记录,考虑数据集太大,为了提高运行效率,只随机抽取20%的数据;另外,由于数据集的局限,此项目的画像标签只是庞大用户画像的一部分,基于已有的数据集进行制作。#导入库%matplotlib inlineimport numpy as npimport pandas as pdfrom matplotli

2020-08-02 11:12:38 12503 4

原创 从小案例学习Hive——特征分析和偏移分析、企业级优化技巧

一、特征分析与偏移分析什么是窗口函数呢?Window Function又称为窗口函数、分析函数。窗口函数与聚合函数类似,但是每一行数据都生成一个结果。聚合函数(比如sum、avg、max等)可以将多行数据按照规定聚合为一行,一般来讲聚集后的行数要少于聚集前的行数。但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时便引入了窗口函数。窗口函数是在select时执行的,位于order by之前。1.累计计算窗口函数1、sum(…) over(……)需求1-1:对2018年公司的

2020-07-29 17:18:56 504

原创 从小案例学习Hive——基础查询分析、连接查询分析

一、基础查询分析基础语法需求1:某次经营活动中,商家发起了"异性拼团购",试着针对某个地区的用户进行推广,找出匹配用户。参考实现:选出城市在北京,性别为女的10个用户名SELECT user_nameFROM user_infoWHERE city=‘beijing’ and sex=‘female’limit 10;需求2:某天,发现食物类的商品卖的很好,你能找出几个资深吃货吗?参考实现:选出在2019年6月18日,购买的商品品类是food的用户名、购买数量、支付金额SELECT

2020-07-29 12:56:12 457

原创 大数据分析——Hadoop\Hive

一、大数据分析介绍与移植环境1.大数据分析什么是大数据大数据是一个术语,用来描述这样的一种数据集,它极其庞大、复杂,以至于传统的数据处理应用程序难以应付。术语大数据通常指的是应用预测分析,用户行为分析,或者某些其他从数据中提取有价值信息的高级数据分析方法,并不是专指某种特定规模的数据集(维基百科)大数据的特征多样性(Variety):大数据的异构和多样性;很多不同的形式(文本、图像、视频、机械数据);无模式或是模式不明显;不连贯的语法或句义处理速度(Velocity):实时分析而非批量式

2020-07-29 11:26:58 977

原创 Python案例分析——电商交易数据分析

电商交易数据分析# 加载数据分析需要使用的库import numpy as npimport pandas as pdimport matplotlib.pyplot as plt# 加载数据,加载之前先用文本编辑器看下数据的格式,首行是什么,分隔符是什么等df = pd.read_csv('./order_info_2016.csv', index_col='id')df.head()# 加载好数据之后,第一步先分别使用describe和info方法看下数据的大概分布# 这两个方法放到两

2020-07-26 22:00:20 1303 1

原创 Python案例分析——google play store的app数据分析

google play store的app数据分析import numpy as npimport pandas as pdimport matplotlib.pyplot as plt# 加载文件# 这次只分析'App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type'df = pd.read_csv('./googleplaystore.csv', usecols=(0, 1, 2, 3, 4, 5, 6))# 简单浏

2020-07-26 21:57:10 850

原创 Python案例分析——阿里巴巴股票行情数据分析

阿里巴巴股票行情数据分析1、简单分析# 阿里股票历史数据下载:https://www.nasdaq.com/symbol/baba/historical# 也可以抓取雪球等股票app的数据# 阿里股票走势图:https://xueqiu.com/S/BABA# 道琼斯走势:https://xueqiu.com/S/.DJImport numpy as npfrom dateutil.parser import parse# 指定打开的文件名# 不需要的行需要skip掉# 默认没有分隔符

2020-07-26 21:51:23 1047

原创 Python案例之Numpy + Pandas——北京房价分析、2018年北京积分落户数据分析

2018年北京房价分析案例关于数据分析,首先要明确分析目的(分析问题、业务现状、业务指导等),然后确定数据源(抓取、业务数据、打点、报表等),再进行数据清洗、处理与分析,最终得到结论。# 明确分析目的# 了解北京房价总体情况,为自己买房做指导# 引入使用的库import numpy as npimport pandas as pdimport matplotlib.pyplot as plt# 加载数据文件df = pd.read_csv('./beijing_houst_pric

2020-07-26 17:57:35 636

原创 Python案例分析——关于身份证的那些事

1. python判断真假身份证号识别一串身份证是否是真实的身份证号码: 公民身份号码是特征组合码,共18位,由十七位数字本体码和一位数字校验码组成。 排列顺序从左至右依次为:六位数字地址码,八位数字出生日期码,三位数字顺序码和一位数字校验码。作为尾号的校验码,是由号码编制单位按统一的公式计算出来的。身份证第18位(校验码)的计算方法:1、将前面的身份证号码17位数分别乘以不同的系数。 从第一位到第十七位的系数分别为: [7,9,10,5,8,4,2,1,6,3,7,9,10,5,8,4,2]。2

2020-07-26 17:17:45 1370

原创 Tableau 可视化图表学习

关于Tableau可视化学习汇总Tableau入门和介绍Tableau基础作图柱状图和条形图功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入Tableau入门和介绍下载:https://www.tableau.com/zh-c

2020-07-26 00:02:43 1919

【戴师兄】python第二讲の基础知识点.md

【戴师兄】python第二讲の基础知识点.md

2023-07-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除