自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 银联暑期实习大数据岗凉经

银联暑期实习大数据岗6.14 笔试(图形推理、逻辑推理、数字推理、语文、资料分析)50分钟(金融,经济、管理、法律、基础知识等)20分钟英语阅读20分钟专业知识(单选和不定项)30分钟,一些基本统计理论和Hadoop、Spark知识。...

2020-07-15 16:35:53 523

原创 B站主播投稿视频数据分析与tableau可视化——视频名称、简介、弹幕数、点赞数、收藏数、转发数、投币数等分析

在短视频运营中,数据分析这一环节是非常重要的,要去观察数据背后的现象,这样有利于我们对视频内容的调整,优化有一个指导性的作用。本文爬取b站主播OldBa1的投稿视频数据,包括视频名称、简介、弹幕数、点赞数、收藏数、转发数、投币数等,并据此计算相应比率,根据视频主题和时间进行分类可视化,分析其转型可能性及方向。数据获取与简介本文数据是从b站爬取,本人爬虫经验不足,爬虫的部分,参考了爬取b站视频的名称、地址、简介、观看次数、弹幕数量及发布时间并保存为csv文件的方法并稍作修改。代码如下,具体不再介绍。

2020-07-10 21:42:50 5230 3

原创 Airbnb(爱彼迎)用户数据分析——tableau可视化和MySQL分析

本文将对Airbnb的数据进行相应的数据分析,主要分为两部分,一是根据用户的booking相关信息(以美国为主体),从租客的角度进行分析,二是从房东或房源的角度分析Airbnb房源的基本情况(以北京的房源信息为主)。用户分析互联网数据分析主要从以下5个方面来进行分析,也就是常见的AARRR模型。用户获取 Acquisition激发活跃 Activation提高留存 Retention增加收入 Revenue传播推荐 Referral在实际数据分析当中,针对每个方面,分别定义清晰的评价指标

2020-07-10 14:43:24 4857 4

原创 自然语言处理常用RNN、LSTM、GRU举例详解,通俗易懂

之前疫情网民情绪识别的模型用到了LSTM,最近面试被问到具体细节,感觉被拎出来羞辱,经过认(cha)真(yue)思(wen)考(xian),总结了一下RNN、LSTM、GRN的一些知识。为了更加易懂,本文会采用疫情网民情绪识别这篇文章里的例子。RNN详解说到LSTM,还是要先从RNN(循环神经网络)开始描述,算是LSTM的基础。RNN经典的模型分解可以用如下图片解释,这也是我在大部分文章中看到的解释,感兴趣的可以到RNN详解这篇文章中看看。左侧部分,x、s、o都是向量,分别表示输入层、隐藏层和输出层

2020-06-27 16:23:21 2458 1

原创 信用卡风控——梯度提升树方法Python实现

本文是一个信用卡评分模型,利用台湾地区一些信用卡客户的信用额度、教育程度、婚姻状况、过去的还款状态、账单等信息对客户进行评分,采用GBDT(梯度提升树)模型对数据进行分类,预测其是否会产生逾期偿还,数据来源于kaggle的一个比赛,可在此处下载。数据介绍此数据集包含有关2005年4月至2005年9月台湾地区信用卡客户的默认付款,人口统计因素,信用数据,付款历史和账单的信息。有25个变量:ID:每个客户的IDLIMIT_BAL:以新台币计的给定信用额度(包括个人和家庭/辅助信用额)SEX:性别(

2020-06-07 16:44:24 1998 2

原创 快牛智能凉经(数据挖掘日常实习)

HR通知投递大概一周后收到hr的电话,大概自我介绍了一下后问了所在地(因为疫情原因在老家)、工作时间之类的问题,可能确认我能不能到岗,然后通知我面试确认时间,定在第二天下午两点。然后就开始疯狂查询公司产品和面经。业务面一个很随和的小姐姐,但是我很紧张,语速很快,感觉被问了很多问题(大概30分钟)自我介绍(提了一嘴数学建模,不知道为什么也和信贷没半毛钱关系)介绍我的数学建模过程(是个物理题,很尴尬的讲完了)知道哪些机器学习方法(聚类、SVM、Logistic回归、决策树、神经网络等)有使用过哪

2020-06-04 21:58:58 1845 1

原创 Tableau疫情可视化

本文数据来源于丁香园官网的疫情数据,包含国家/地区、省份的疑似病例、死亡病例、确诊病例、治愈病例等数据,将其存储在MySQL数据库中,并利用tableau完成相应的动态可视化。数据获取数据爬取参考了文章——17行代码简单搞定最新疫情数据获取,根据改进得到代码如下://导入需要的库import pymysql //数据库import re //网页内容爬取正则化import json //json文件from pip._vendor import requests //网页爬取def cr

2020-06-02 13:13:24 2981 2

原创 消费者群划分——利用青少年在社交网络平台的行为进行市场细分(Python)

目录数据读取描述性统计分析数据预处理缺失数据处理异常值处理定性变量转换标准化处理聚类分析市场细分(market segmentation )是指营销者通过市场调研,依据消费者的需要和欲望、购买行为和购买习惯等方面的差异,把某一产品的市场整体划分为若干消费者群的市场分类过程。每一个消费者群就是一个细分市场,每一个细分市场都是具有类似需求倾向的消费者构成的群体。市场细分能够对企业的生产、营销起到极其重要的作用:有利于选择目标市场和制定市场营销策略有利于发掘市场机会,开拓新市场有利于集中人力、物力投

2020-06-02 11:27:26 3995 6

原创 【项目】新冠肺炎疫情期间网民情绪识别——Python文本分类

目录任务描述数据描述读取数据数据预处理可视化word2vec模型框架及拟合结果展示改进与思考说明任务描述2019新型冠状病毒(COVID-19)感染的肺炎疫情发生对人们生活生产的方方面面产生了重要影响,并引发国内舆论的广泛关注,众多网民参与疫情相关话题的讨论。为了帮助政府掌握真实社会舆论情况,科学高效地做好防控宣传和舆情引导工作,针对疫情相关话题开展网民情绪识别的任务。具体任务是给定微博ID和微博内容,设计算法对微博内容进行情绪识别,判断微博内容是积极的、消极的还是中性的。数据描述数据集nCoV_

2020-05-27 18:15:11 15274 84

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除