自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 Olist巴西电商数据分析(二)

Olist巴西电商数据分析上篇指路:https://blog.csdn.net/jlycd/article/details/113887419文章目录Olist巴西电商数据分析项目背景搭建数据分析架构数据分析商品维度销售维度总结与建议项目背景本项目是来自kaggle上的数据集案例,记录了巴西电商平台Olist 2016,2018的真实业务数据数据,包含以下的内容。搭建数据分析架构主要通过用户,商家,产品,销售四个维度来展开分析各项指标。使用到的工具主要有python,excel,t

2021-02-23 23:04:10 1876 1

原创 Olist巴西电商数据分析(一)

Olist巴西电商数据分析文章目录Olist巴西电商数据分析项目背景搭建数据分析架构数据分析用户维度商家维度总结前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结二、使用步骤1.引入库2.读入数据总结项目背景本项目是来自kaggle上的数据集案例,记录了巴西电商平台Olist 2016,2018的真实业务数据数据,包含以下的内容。搭建数据分析架构主要通过用户,商家,产品,销售四个维度来展开分析各项指标。使用到的工具主要有python,excel,tableau等数据

2021-02-21 21:50:16 3202 4

原创 python实现Instagram网络爬虫

python实现Instagram网络爬虫instagram爬虫背景介绍爬虫的设计思路大致实现步骤代码数据展示数据简要分析instagram爬虫背景介绍Instagram是国际最大的社交媒体之一。这是一个巨大地相片分享社区群,全世界的网民们可以在Instagram上以快速,出色以及有趣的方式来与朋友分享照片,分享生活,实现信息的即时分享、传播互动。利用python语言从账户内获取到其个人基本信息:用户简介、发帖数、关注数、被关注数以及发布的图片信息:图片文件、发布时间、点赞数、评论数。通过数据筛选,

2021-01-27 15:19:08 7031 3

原创 sql做题记录(三)

题目来自leetcode记录题型,做题方法,错误原因和注意事项如有问题 请及时纠正1.每日用户统计编写一个 SQL 查询,以查询从今天起最多 90 天内,每个日期该日期首次登录的用户数。假设今天是 2019-06-30.select a.login_date,count(a.user_id) as 'user_count' from(select distinct t.user_id,min(t.activity_date) as 'login_date' from Traffic twh

2021-02-21 13:54:11 476

原创 机器学习笔记:随机森林

随机森林随机森林是一种集成算法,是对决策树模型的集成学习。目的是通过考虑多个评估器建模结果,汇总得到一个综合结果。集成算法包括bagging(装袋法),boosting(提升法),stacking(堆栈法)三种。装袋法的核心思想是构建多个相互独立的评估器,然后对其预测进行平均或多数表决原则来决定集成评估器的结果。装袋法的代表模型就是随机森林。提升法中,基评估器是相关的,是按顺序一一构建的。其核心思想是结合弱评估器的力量一次次对难以评估的样本进行预测,从而构成一个强评估器。提升法的代表模型有Adab

2021-02-12 17:06:06 682

原创 SQL窗口函数使用总结

窗口函数分类:序列函数:将数据按大小顺序排序row_number() 按排序顺序依次连续标号1,2,3…相同值按排序前后,标不同的连续数字dense_rank() 按排序顺序依次连续标号1,2,3,3,4…相同值有相同的编号,后面的数字与前面连续dense_rank() 按排序顺序依次不连续标号1,2,3,3,5…相同值有相同的编号,后面的数字与前面可能不连续,按数量来算分布函数:计算出数据所占总体的大概位置 按百分比计算PERCENT_RANK() = (RANK() – 1) / (

2021-02-03 19:23:40 106

原创 机器学习笔记:决策树

决策树模型建立重要参数画图参数调优模型建立决策树是一种常见的机器学习算法,既可以做分类也可以做回归。决策树的执行过程是将数据从根节点一步一步的划分到各个叶子节点(决策的过程)。决策树包括以下组成成分:根节点肥叶子节点与分支叶子节点(最终的决策结果)核心:(怎样找到最佳树)如何在表中找到最佳节点和最佳分支如何让决策树停止生长 防止过拟合模块 sklearn.treetree.DecisionTreeClassifier 分类树tree.DecisionTreeRegressor 回归树

2021-01-30 19:37:33 234

原创 sql做题记录(二)

题目来自leetcode记录题型,做题方法,错误原因和注意事项如有问题 请及时纠正1.相邻学生交换位置select id+1 as 'id', student from seatwhere id%2=1 and id not in(select max(id)from seat)union select id-1 as 'id', student from seat where id%2=0 union select id ,student from seatwhere id%2=1 an

2021-01-29 16:49:07 70

原创 sql做题记录(一)

题目来自leetcode记录题型,做题方法和错误原因如有问题 请及时纠正1.分数排序要求:如果两个分数相同,则两个分数排名(Rank)相同。请注意,平分后的下一个名次应该是下一个连续的整数值。换句话说,名次之间不应该有“间隔”。SELECT Score, dense_rank() over(order by Score DESC) AS 'Rank' from Scores;这里用dense_rank()来对成绩进行排序row_number(),rank(),dense_rank()的区.

2021-01-27 15:59:13 117

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除