自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

独自优秀的数据分析师

梳理数据分析知识体系,更新中...

  • 博客(12)
  • 收藏
  • 关注

原创 Python3爬取前程无忧数据分析工作并存储到MySQL

1、导入包import requests #取数from lxml import etree #用xpath解析import pymysql #连接数据库import chardet #自动获取编码2、获取单页htmldef get_one_page(url): headers = {'User-Agent':'Mozilla/5.0 (Windows NT ...

2019-06-11 20:03:12 6568 6

原创 Hive-HQL语句调优

一、除去多余操作比如获取每个员工最高薪水记录方案一:selecet * from a inner join(select user_id,max(salary) as max_salary from a group by user_id) b on a.user_id = b.user_id and a.salary = b.max_salary方案二:减少了join操作,性能提升select * from(select *,row_number()over(partition by

2022-04-25 22:18:40 1894

原创 「Hive」协同过滤推荐系统-余弦相似度

前言:写这文时2021年不知不觉只剩3个月了,想必在抖音快手短视频、淘宝京东购物、饿了么美团外卖横行的年代,推荐算法这个词想必大家不陌生吧?(陌生的评论区扣1,我根本不信)我在几年前就卸载了抖音,因为时常一刷刷几个小时,根本控制不住…淘宝上给弟弟买的衣服多了,首页猜我喜欢的全是T恤大裤衩,导致我这个夏天的穿衣风格很不对劲…有段时间减肥用饿了么点轻食,几天之后我的食物列表里全是轻食,当轻食吃腻了就有种再也不想打开饿了么的冲动…对,以上这些生动案例都是基于强大的推荐系统。(以下划线内容请大家熟读并

2022-04-24 21:49:12 3563 1

原创 Hive-与MySQL的区别(技术差异点)

Hive与MySQL的技术差异点:语法存储数据类型排序子查询抽样查询重点:hive和MySQL查询语句的区别:MySQL:子查询支持完整Hive:1、Hive不支持if或case when里的子查询比如:select a.user_id,case when a.id = (select id from a) then a.id else null end as a.id from a 2、Hive中主查询的引用仅在子查询的where子句中支持子查询where

2022-04-24 21:38:25 2735

原创 「MySQL」电商“人货场”指标体系

本文你将学到:如何搭建电商“人货场”指标体系MySQL:留存率分析MySQL:RFM模型分析MySQL:用户行为路径分析细心的同学可能会发现,这个符号的「标题」都是实战项目,因为学习的目的不是学习本身,而是为了解决实际问题。本文通过案例来讲述MySQL在公司里是如何应用的。本文适用于有一定MySQL基础,想进阶练习的同学。(真的都是干货,请大家多多练习) 思维导图附在文章末尾,配合文章一起使用效果更佳。一、项目背景电商行业从早些年的粗放式经营,逐步转化为精细化运营。随着平台数据量的不断增

2022-04-23 17:40:10 2484

原创 MySQL-窗口函数【重点】

对一个成熟的数据分析师来说,窗口函数可以大幅提高查询效率,且SQL代码优雅。窗口函数学起来,炫飞同行~本文内容导航:一、定义窗口可以理解为记录集合,窗口函数就是在满足某种条件的记录集合上执行的特殊函数。 即:应用在窗口内的函数。静态窗口:每条记录都要在此窗口内执行函数,窗口大小都是固定的。动态窗口:不同的记录对应着不同的窗口,这种动态变化的窗口叫滑动窗口。二、语法格式函数名(字段名) over(子句) over()括号内若不写,则意味着窗口函数基于满足where条件的所有行进行计算。

2022-04-21 22:11:55 986

原创 MySQL-核心查询语句【数据分析师必看】

本文数据分析师必看!上次讲了数据库和MySQL基础,这回咱们来学点MySQL最常用到的—核心查询语句。框住的部分是本节重点一、单表查询SELECT 字段名 FROM 表名 WHERE 条件 [GROUP BY 字段名 HAVING 条件 ORDER BY 字段名 LIMIT 条数];1、排序单列排序asc升序(默认,可不写),desc降序语法格式:SELECT 字段名 FROM 表名 [WHERE 字段 = 值] ORDER BY 字段名 [ASC / DESC]组合排序同

2022-04-20 21:54:26 643

原创 MySQL-基础入门从0到1

数据分析师进行数据分析工作的大前提是:要有数据。一般是用Excel和数据库等数据载体中获取。Excel功能虽然强大,但无法存储海量数据,最多只有104万行,使用公式的情况下,十几万行的数据就会导致整张表运行卡顿。 所以本文介绍的是另一个数据载体:数据库,它支持海量数据存储,且提供高效的查询速度。另外,因为内容对标的是数据分析师这个岗位,而不是数据库工程师、大数据开发等等,咱们只要了解数据库如何使用即可。因此本文不会说得那么面面俱到,做数据分析师掌握以下这些就足够了。其它的补充信息可推荐大家一本书《MyS

2022-04-19 22:08:55 925

原创 「数据分析入门」某在线教育机构经营分析

哎,我来了我来了~才华如我又带着一个业务案例来了。 依旧是帮助大家锻炼分析思维,熟悉业务流程。 这是个知识付费的年代,老师是知识的传播者,本次的分析主题选择了教育行业。本文内容:案例背景问题确认与指标拆解问题解决思路实际方法应用结论分析报告看完之后你将会有以下收获:教育行业营收转化模型。教育机构利润结构。优化矩阵漏斗图、四象限图RFM模型一、案例背景教育公司成立于1999年,有一定规模和群众基础。 积极互联网转型,现有9大方向专业,主打的大数据开发、Java开发和数据

2022-04-18 22:22:27 425 1

原创 「数据分析入门」某线下连锁水果店销售数据分析

好像大家都知道数据分析师具备分析思维、懂业务很重要~但,怎样才能判断你是否具备了呢?不是一两句能说清的...请查看下文,带你了解数据分析师是如何开展工作的~

2022-04-17 22:13:03 878

原创 【Python爬虫01】爬虫原理及基本请求库urllib

一、网络爬虫是什么?模拟浏览器,按照一定的规则,自动、大批量的获取网络资源,包括文本、图片、链接、音频、视频等等。模拟浏览器,按照一定的规则,自动、大批量的获取网络资源,包括文本、图片、链接、音频、视频等等。二、爬虫原理模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据库或文件中...

2020-03-29 20:18:47 1744

原创 [超详细] Python3爬取豆瓣影评、去停用词、词云图、评论关键词绘图处理

爬取豆瓣电影《大侦探皮卡丘》的影评,并做词云图和关键词绘图第一步:找到评论的网页url。https://movie.douban.com/subject/26835471/comments?start=0&limit=20&sort=new_score&status=P第二步:鼠标放在评论上右键检查,分析源代码,确定抓取的内容。 <span class="sh...

2019-06-13 01:55:10 4229 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除