自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

微信公众号(年更选手):数据闲逛人 | Github开源项目:数分/数挖study路线 https://github.com/jc-dian/python_data_analysis

最好的学便是教鸭,喜欢记录学习过程中的个人收获和数据竞赛经历,遇见更多有趣的灵魂~~啦啦啦

  • 博客(270)
  • 资源 (9)
  • 收藏
  • 关注

原创 常见的数据分析师的面试问题 完整文件放在GitHub链接上了!!!擅用crtl + F

文章目录前言1.常见的数据分析师的面试问题1.1 基础知识考查**1.1.1概率论与数理统计:**(1)用简洁的话语简述**随机变量**的含义。(2) 随机变量和随机试验间有什么关系(3) 划分连续型随机变量和离散型随机变量的依据。(4)变量独立和不相关的区别(5) 常见分布的分布函数/概率密度函数,以及分布的特性,如指数分布的无记忆性。:smile:(6) 协方差和相关系数的区别(7) 随机变量常用特征的解释(期望,方差等)。(8) 中位数是否等于期望。(9) 常见分布的期望和方差是什么?(10)如何给没

2021-03-24 21:59:49 8508

原创 Python数据分析实践项目 教育平台的线上课程智能推荐

文章目录摘要关键词:数据分析;数据可视化;数据预处理;协调过滤1.问题描述1.1问题背景1.2所需关键技术2.数据分析任务 1 数据预处理任务1.1对照附录1,理解各字段的含义,进行缺失值、重复值等方面的必要处理。任务1.2对用户信息表中 recently_logged 字段的“--”值进行必要的处理,并在报告中描述处理过程。任务 2 平台用户活跃度分析任务2.1分别绘制各省份与各城市平台登录次数热力地图,并分析用户分布情况。任务2.2分别绘制工作日与非工作日各时段的用户登录次数柱状图,并分析用户活跃的主要

2021-01-14 22:33:57 21148 7

原创 使用Pandas进行数据预处理 笔记1 任务5.1 合并数据

文章目录使用pandas进行数据预处理任务5.1 合并数据代码5-1 索引完全相同时的横向堆叠5-2 表名完全相同时的concat纵向堆叠5-3 使用append方法的参数及其说明5.1.2 主键合并数据5-4 使用merge函数合并数据表5-5 使用join方法实现主键合并5.1.3 重叠合并数据5-6 重叠合并5-7 将多张菜品订单详情表纵向合并1.堆叠不同时间的订单详情表5-8 订单详情表,订单信息表,客户信息表主键合并使用pandas进行数据预处理任务5.1 合并数据import numpy

2020-12-16 17:25:42 2595 1

原创 python数据分析项目有趣 新零售-无人智能售货机商务数据分析

import warningswarnings.filterwarnings('ignore')import datetimeimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport reimport os#数据探索#1 获取所有文件的名称和路径data_path = './data/' #数据存储路径data_names = os.listdir(data_path) #列举出data

2020-06-10 16:20:25 15050 24

原创 Charles获取手机端小程序的数据注意事项

Charles是什么

2023-04-11 15:57:18 352 1

原创 Pgsql中如何进行循环遍历与执行传递进行的变量

Pgsql中如何进行循环遍历与执行传递进行的变量

2023-01-18 17:18:20 2526

原创 MindOpt安装配置教程(Windows系统)

MindOpt安装配置教程(Windows系统)作了一些细节补充

2023-01-17 07:30:00 785

原创 阿里云中MindOpt优化器在python中如何安装

阿里云中MindOpt优化器在python中如何安装

2023-01-10 17:13:02 456

原创 【实习】一面日记 记录实习的点点滴滴

1w 字 一面日记 记录实习的点点滴滴

2022-12-07 14:52:13 752

原创 cannot import name ‘just_fix_windows_console‘ from ‘colorama‘

cannot import name 'just_fix_windows_console' from 'colorama'

2022-12-01 15:48:16 2951 3

原创 在使用scikit-optimize中No module named ‘skopt‘

在使用scikit-optimize中No module named 'skopt'

2022-11-30 14:23:12 469

原创 Python中代码实现将DataFrame格式的数据自动到复制面板中

Python中代码实现将DataFrame格式的数据自动到复制面面板中

2022-11-01 11:58:28 273

原创 pgsql语句一些常见用法【增删除改】【DateFrame数据导入数据库】

pgsql语句一些常见用法

2022-10-10 09:51:55 1296

原创 泪目!一天终于解决了这个bug Pyspark: Exception: Java gateway process exited before sending the driver its port

​Pyspark: Exception: Java gateway process exited before sending the driver its port number

2022-09-15 15:00:40 1189

原创 搭建 bitnami/spark里面不能通过vi创建脚本文件 (/var/lib/dpkg/lock-frontend), are you root?

搭建 bitnami/spark里面不能通过vi创建脚本文件 (/var/lib/dpkg/lock-frontend), are you root?

2022-09-13 16:36:57 729

原创 正则表达式常见语法总结+正则表达式在线测试网站

正则表达式常见语法总结+正则表达式在线测试网站

2022-08-19 09:57:20 131 2

原创 【需求】Python利用selenium抓取京东的地址数据

爬取收集京东地址数据(网页版京东)

2022-08-10 17:54:01 566

原创 【需求】Python利用selenium抓取顺丰的地址数据

收集顺丰的省市区数据

2022-08-10 17:44:20 1065

原创 Python获取指定时间范围内的工作日、假日日、法定节假日

Python获取指定时间范围内的工作日、假日日、法定节假日

2022-08-09 16:18:21 8668

原创 SQL语句--获取数据库表信息,表名、列名、描述注释等

SQL语句--获取数据库表信息,表名、列名、描述注释等

2022-08-09 14:29:13 570

原创 利用selenium框架爬取京东省市区数据时,网页里面内嵌的一个窗口遇到的NoSuchElementException的 bug,原因是iframe

利用selenium框架爬取京东省市区数据时,网页里面内嵌的一个窗口遇到的NoSuchElementException的 bug,原因是iframe

2022-07-21 16:08:34 252

原创 数据建模中利用3σ剔除异常值进行数据清洗

3σ剔除异常值进行数据清洗

2022-07-06 10:04:46 3672 4

原创 PostgreSQL 出现cross-database references are not implemented的bug

bug

2022-06-28 18:30:23 8213

原创 pyspark连接mysql出现An error occurred while calling o283.load: java.sql.SQLException: No suitable driver

pyspark连接mysql出现An error occurred while calling o283.load: java.sql.SQLException: No suitable driver

2022-06-17 14:42:52 694

原创 AttributeError: ‘RDD‘ object has no attribute ‘toDF‘

AttributeError: ‘RDD‘ object has no attribute ‘toDF‘

2022-06-17 09:42:43 1190

原创 Py4JJavaError: Job aborted due to stage failure: Task 2 in stage 1.0 failed 1 times, most recent fai

jupyter搭建spark环境遇到的bug

2022-06-16 10:49:13 1883 1

原创 Windows10 下jupyter配置pyspark + jupyterlab 已下载好所有配置文件

Windows10 下jupyter配置pyspark + jupyterlab 已下载好所有配置文件

2022-06-13 18:18:20 549

原创 /usr/bin/gzip: 1: ELF: not found /usr/bin/gzip: 3: : not found /usr/bin/gzip: 4: Syntax erro

root@DESKTOP-9LANUGK:/opt# tar -zxvf spark-3.2.1-bin-hadoop3.2-scala2.13.tgz/usr/bin/gzip: 1: ELF: not found/usr/bin/gzip: 3: : not found/usr/bin/gzip: 4: Syntax error: "(" unexpectedtar: Child returned status 2tar: Error is not recoverable:

2022-06-09 17:47:15 2027 1

原创 Tableau 看板搭建小技巧

情景:在多个筛选器一起筛选的时候 第一步:先创建字段,设置index 第二步:再创建一个字段:page设置代码如下: 第三个:将page字段放上筛选器,并设置显示 情景:我想统计一个字段,在某个维度下统计去重后的某个维度数据(不是最小颗粒度的维度,例如不是唯一id列)。 遇到问题:在仪表板进行kk_tiny_category筛选时候,不会自动筛选掉,进行自动更新变化数字,即使在筛选器里面已经将筛选器设置为仅相关。 解决方法:将筛选器设置为添加到上下文 解决效果:完美解决...

2022-06-06 17:22:16 564

原创 【面试】insta360面试-12-26

💡 笔试交付邮箱:yumingliang@insta360.com温馨提醒:如有不诚信行为会直接取消资格。交付格式可以选用 sql 文件格式或者 word 文档格式,不要用 PDF 等不好复制代码的格式。SQL 等答案请先自行运行过再提交。以下 6 题选 4 题作答即可,如果你有能力完成全部,那会更棒:1、你之前数据分析的职业生涯或者项目中,是否有数据分析结果和预期结果不相符的情况。如有请说明背景,并且聊聊你是怎么处理的。微博与小红书水军识别模型的 参数定义2、Excel 处理exc

2022-05-19 23:19:10 1305 1

原创 【需求】DBeaver中使用with as,下面使用as出来的表却报错说不存在,ERROR: relation “new_dppp“ does not exist

bugbug如下:Navicat中同样的语句可以使用,但是DBeaver中却不能使用,折腾半天,终于把问题解决了,但是不知道为什么,可能是软件本身设置如此吧解决bug解决方法:不要有换行,猜测是换行是独立片段,没有联系(这估计是DBeaver的特性,Navicat中不会这样)拓展那么的就像换行,空着美观一点怎么办,可以解决,加注释行就可以解决了...

2022-05-07 09:45:17 1784 6

转载 postagsql中统计一个表的大小

Postgresql查询表的大小这个转载过来自己看的哈哈--数据库中单个表的大小(不包含索引)select pg_size_pretty(pg_relation_size('表名'));--查出所有表(包含索引)并排序SELECT table_schema || '.' || table_name AS table_full_name, pg_size_pretty(pg_total_relation_size('"' || table_schema || '"."' || table_name

2022-04-28 12:02:07 281

原创 python中构造出一个空的DataFrame,并在循环中不断往dataframe里面添加内容

这是管培期间的一个学习任务里面其中解决问题用到的方法关键是下面的result.loc()巧妙地利用len()获取dataframe数据长度import pandas as pd import numpy as np # 构造表格2数据data = pd.DataFrame({'product_num':['A','B'], 'kk_big_category':['美妆','食品'], 'kkv_big_catego

2022-04-20 17:32:33 5680

原创 jupyter notebook如何实现连接PostgreSQL,并进行取数的操作

前言       工作中如果我们公司有数据库,那么就经常需要用jupyter notebook连接数据库,把数据拉取进来用python语言进行数据探索,数据处理甚至是数据建模的操作。PostgreSQL介绍PostgreSQL 教程如何连接?# 导入数据库import psycopg2import pandas as pdfrom sqlalchemy import create_engine# postgres:数据库

2022-04-12 14:59:32 2570

原创 【Bug】偶遇LAG函数,相见恨晚,告别拉链表中的left join,开启微妙时刻

前言背景是实习期间,需要完成一个拉链表,大概长下面这个样子需求:实现拉链表(对start_date列进行)在我没有遇见LAG函数之前,我在这里足足研究了一整个下午!!!现在想象都觉得难以想象,是我太菜了,我一直在想store_inventory_qty里面有重复,我怎么对start_date进行拉链呢?,一直group by什么都不是,row_number(),rank(),dense_rank(),都用上了,还是解决不了,一直在想,还在吐槽,sql没有python灵活啊,最后把问题归因到怎么对st

2022-04-12 12:12:05 331

原创 python中dataframe某列按照指定批量索引修改其单元格内容

文章目录1 需求2 举例搬代码3 突破进展4 感想1 需求       我有一份关于地理位置的数据,但是地理位置信息是用户填写的,所以五花八门都有,如下location.xlsx我需要根据另外一份一二三四五线城市数据,如下city.xlsx我想location.xslx的location列字符串中包含city.xlsx中city列数据字眼就在location.xslx中打上新的一列作为标签(城市维度)2 举例搬代码pr

2022-04-05 10:07:34 3111

原创 Input contains NaN, infinity or a value too large for dtype(‘float64‘).

what:建模之前数据预处理,用Smote处理样本不平衡问题,出现这个bugwhy:根据报错提示输入包含NaN、infinity或一个对dtype来说太大的值(‘float64’)经过sum(data.isnull().sum())然后查找最大df.max()找到原因处理掉就可以了...

2022-04-03 21:34:32 1155

原创 写sql中where限制timestamp类型筛选数据用不了“”,要用‘’?

遇到了个bug,where里面进行个筛选我也卡住了害,见下图一下子把自己愣住了,修改后如下不要用“”,用‘’,至于是为什么?目前不太清楚,如有大佬路过,请告知一下下~感谢

2022-04-01 17:29:31 678

原创 半只脚踏进了ETL,详说一下下这两天的踩的sql的坑

文章目录01 What:这篇文章写的是什么02 Why:为什么有写这篇博客03 正文:“坑”01 What:这篇文章写的是什么       现在工作的公司,管培实习的方向是写sql语句解决学习任务,其中因为自己菜,跌跌撞撞踩的坑,在此记录一下下sql坑。02 Why:为什么有写这篇博客       深刻记录一下下自己对sql与·python在数据清洗中的认知。

2022-03-30 17:16:57 1393

原创 python中对dataframe格式的某列进行匹配替换,apply与lambda结合,或整列replace替换

前言自己想对dataframe某列进行替换正文前面是有data.insert(11,'discovery_like_count',-10)data.insert(12,'discovery_collect_count',-10)data.insert(13,'discovery_comment_count',-10)(1)apply与lambda结合data['discovery_like_count'] = data['discovery_like_count'].apply(lambd

2022-03-26 16:20:28 4030

MindOpt-0.23.0的安装包

MindOpt-0.23.0的安装包

2023-01-11

数据挖掘进阶流程.xmind

建模目标 不要让模型欠拟合 不要让模型过拟合 数据挖掘流程 (1)确定目标(将业务问题转化为建模问题) (2)数据探索 (3)数据预处理 (4)特征工程 (5)模型训练 (6)模型评估 (7)(模型融合) (8)模型预测

2022-11-03

SQL语句优化.xmind 一些小技巧

1 避免出现select * 2 避免出现不确定结果的函数 3 多表关联查询时,小表在前,大表在后 4 使用表的别名 5 用where子句替换HAVING子句

2022-11-03

SQL.xmind 【SQL的执行顺序】【SQL常用语句】常考要点

【基础知识】 三大范式,为什么要有三大范式,建数据库时一定要遵循吗?(反范式) 【必备题型】 1 列转行 2 连续性问题 3 相应指标问题 4 我关注你,你也关注我 第一个sql题输出一个领导所有的下级 最长连续登录天数

2022-11-03

AI面试百题-集成学习算法.xmind,包含各集成算法介绍,优缺点

Day05决策树 Day06集成学习 Day07随机森林 Day08_GBDT算法 Day09_XGBoost Adaboost LightGBM

2022-11-03

AB测试.xmind-从实验设计到流量分配......更加复杂的实验设计

1. 实验设计 AB测试实验目的: 1.判断哪个更好: 例如,有2个UI设计,究竟是A更好一些,还是B更好一些 2. 计算收益: 基本步骤 2. 流量分配 实验设计的两个目标 a. 希望尽快得到实验结论、尽快决策

2022-11-03

常见的数据分析师的面试问题【两万字辛勤整理】实战技能

1.1 基础知识考查 **1.1.1概率论与数理统计:** (1)用简洁的话语简述**随机变量**的含义。 (2) 随机变量和随机试验间有什么关系 (3) 划分连续型随机变量和离散型随机变量的依据。 (4)变量独立和不相关的区别

2022-11-03

网页版顺丰网站地址填写的省市区数据.csv

通过爬虫框架Selenium采集的数据 表头(省市区):province city county 数据量:3013*3 用途: 1 可以对比分析顺丰快递所能到达的省市区 2 可以得知顺丰对于一直直辖县是怎么处理时、区|县的填写关系的,如石河子市

2022-11-02

腾讯大数据分析通道职业等级标准.xlsx

"一般外包开发公司 月薪8000左右" "创业公司、一线互联网企业 月薪 20000 左右" "一线互联网企业、BAT 月薪 30000 以上" 能力要求 分析能力 数据应用 数据治理与规划 平台建设能力 行业理解与前瞻

2022-11-02

滴滴数据科学家分享:数据如何驱动业务增长 - 知乎.pdf

直觉驱动的困境我是统计科班出身,对数据较为亲近,毕业后便在互联网开始从事机器 学习与数据分析工作。几年观察下来,发现许多业务虽然都会引入算法工程与分析师等 这些数据职能,但是大部分的决策还是基于直觉来拍。

2022-11-02

慕课上嵩天老师课程【Python语言程序设计】课件集合

1.0-第1章课程导学v2.5.pdf 1.1-程序设计基本方法v2.5.pdf 1.2-Python开发环境配置v2.5.pdf 1.3-实例1-温度转换v2.5.pdf 1.4-Python程序语法元素分析v2.5.pdf

2022-11-02

慕课上嵩天老师课程【Python网络爬虫与信息提取】PPT集合

00-网络爬虫课程内容导学.pdf 01-Requests库入门.pdf 02-网络爬虫的盗亦有道.pdf 03-Requests库网络爬取实战.pdf 04-Beautiful Soup库入门.pdf 05-信息标记与提取方法.pdf 06-实例1-中国大学排名爬虫.pdf 07-Re(正则表达式)库入门.pdf

2022-11-02

慕课上嵩天老师课程【Python数据分析与展示】所有PPT集合

DV01-Numpy库入门 DV02-Numpy数据存取与函数 DV03-实例1-图像的手绘效果 DV04-Matplotlib库入门 .....

2022-11-02

某游戏数据分析的笔试题

1.需编写一段SQL创建一个qq用户档案表table_user,表结构如下:(需为分区表) 列名 类型 长度 允许空 备注 Im_date bigint 8 否 日期(主键,分区字段) qq bigint qq号 age char 10 是 年龄 sex char 10 是 性别

2022-11-02

随机森林 【Bagging算法】

回顾Bagging算法 图示 随机采样 概念:随机采样(bootsrap)就是从我们的训练集里面采集固定个数的样本,但是每采集一个样本后,都将样本放回。 注意细节:对于我们的Bagging算法,一般会随机采集和训练集样本数m一样个

2022-11-02

数据挖掘(二)监督学习梯度下降

监督学习 监督学习目的在于学习一个由输入到输出的映射 图形表示 梯度下降 梯度的概念 梯度是什么? 在微积分里面,对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以

2022-11-02

数据挖掘入门 【数据集划分】、【代价函数(损失函数)】

概念 从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中,人们事先不知道的,但又是潜在有用的信息和知识的过程。 通过一个瓜农数据(线性回归)的例子,简述了数据挖掘在实际应用中的作用:预测。

2022-11-02

模型选择.xmind 分类与回归的评价指标

分类评估指标 混淆矩阵 accuracy(准确率) 衡量模型分类准确的指标,具有很大的局限性,一般不用。 提高阈值,精确率有所提高,召回率有所降低。 precision(精确率) 表示预测为正的样本数有多少是对的 TP/TP+FP

2022-11-02

朴素贝叶斯模型.xmind 思维脑图

为什么“朴素” 原因 因为它假定所有的特征在数据集中的作用是同样重要和独立的,正如我们所知,这个假设在现实世界中是很不真实的,因此,说是很“朴素的”。

2022-11-02

某公司的产品数据分析师面试题

1.        一个社交APP, 它的新增用户的次日留存、7日留存、30日留存为52%、25%、14%, 请模拟出来,每天如果日新增6万用户,那么30天后,它的日活数会达到多少? 请使用Excel做答,截图并且说明计算方法。

2022-11-02

使用Pandas进行数据预处理 笔记2 任务 5.2 清洗数据代码数据

该专栏下需要用到的示例数据 https://blog.csdn.net/jcjic/category_10666933.html # 【pandas 进行数据预处理】

2022-11-02

数据科学与大数据专业课程安排(仅供参考)

大学生心理健康指导 军训 大学英语1 大学体育1 高等数学1A1 C语言程序设计 数据科学与大数据技术导论 大学计算机基础 中国近现代史纲要 形势与政策1

2022-06-21

python数据分析项目有趣 新零售-无人智能售货机商务数据分析 的数据

python数据分析项目有趣 新零售-无人智能售货机商务数据分析 的数据 报告连接: https://blog.csdn.net/jcjic/article/details/106668193?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522165582389616781483714624%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=165582389616781483714624&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~blog~first_rank_ecpm_v1~rank_v31_ecpm-2-106668193-null-null.nonecase&utm_term=%E6%99%BA%E8%83%BD&spm=1018.2226.3001.4450

2022-06-21

2020年全国城市几线城市划分名单

2020年全国城市几线城市划分名单 城市 几线城市 北京 一线城市 上海 一线城市 广州 一线城市 深圳 一线城市 成都 新一线城市 重庆 新一线城市 杭州 新一线城市 ......

2022-06-18

小红书用户运营策略分析报告.pdf

小红书是一个聚焦年轻生活方式分享的社区电商平台,拥有从分享种草到购买的完整的 产业链。用户通过发布短视频、文字图片的方式,以笔记的形式在这里记录自己的生活。 2013 年小红书从海淘购物信息不对称的痛点切入,以基于 UGC 的生活分享社区起家, 随后福利社上线,形成“种草—拔草”的商业闭环。随着不断发展,社区涉及的内容更加 广泛,涵盖美妆,摄影,旅游,健身等消费经验和生活方式的方方面面。在电商方面小红书 积极拓展第三方商家,丰富品类。小红书上线仅一年半就登上了苹果应用商店总榜第 4,用 户达到 1500 万。短短 4 年,其用户“小红薯”的数量就突破 5000 万人,成长为全球最大 的社区电商平台,也成为很多年轻女生心中的“种草”神器。

2021-09-06

《数据人才白皮书》Heywhale和鲸-WTW韦莱韬悦.pdf

数据人才白皮书

2021-04-16

python数据分析项目有趣 新零售-无人智能售货机商务数据分析

python数据分析项目有趣 新零售-无人智能售货机商务数据分析 jupter格式的html 项目背景 站点选择等是自动售货机运营者需要重点关注的问题。因此,科学的商业 数据分析能够帮助经营者了解用户需求,掌握商品需求量,为用户提供精 准贴心的服务,是掌握经营方向的重要手段,对自动售货机这一营销模式 的发展有着非常重要的意义。

2020-06-25

mvstats.rar

找了太久了,难受,希望大家评论鼓励一下hhh 学习R语言,应该是当中的聚类分析要用到吧

2020-04-19

jdk-11中文api修订版.zip

java API离线文档,让你沉迷java的学习深海中,想查就查,忘了就看,超好用!!!函数方法忘记了查查

2020-04-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除