自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 产品

1.挖掘需求 云音乐的评论 暗恋 男女友 青春 揣摩用户心理满足用户深层次的需求 产生粘性 和品相关群体之上:爱现心理 (鄙视链 满足成就感)小众产品应该和产品风格挂钩 罗永浩共鸣心理 科比退役歌单群体极化 群体容易相互认同相互鄙视 适当允许群体见的矛盾 需要控制住 关注核心群体的动向 关注意见领袖 留住意见领袖洞察用户需求 培养同理心 设身处地的站在用户场景思考多读书,多看电影,听...

2019-03-31 10:09:26 128

原创 数据分析与数据挖掘实践(6)--数据清洗

数据样本抽样样本具有代表性(比例保持一致)样本比例平衡以及样本不平衡时如何处理尽量使用全量数据Hadoop spark1.异常值(空值)处理1.识别异常值和重复值Pandas:isnull()/duplicated2.直接丢弃Pandas:drop()/dropna()/drop_duplicated()3.异常值(空值)处理当是否有异常当作一个新的属性,代替原值Pandas...

2019-02-22 07:09:46 425

原创 数据分析与数据挖掘实践(5)--交叉分析

#交叉分析left # piv_tb=pd.pivot_table(df, values="left", index=["department", "salary"], columns=["time_spend_company"],aggfunc=np.mean) # piv_tb=pd.pivot_table(df, values="left",index=["depar.

2019-02-16 01:29:35 310

原创 数据分析与数据挖掘实践(4)--复合fenxi

1. 交叉分析2.分组与钻取钻取定义:钻取是改变分析的维度,变换分析的粒度。钻取分为向下钻取和向上钻取。连续分组:连续属性的分组需要离散化。第一步是看其数据分布第二步看有无分隔和拐点第三步可以使用kmeans或者不纯度GINI系数来计算。3.相关分析不连续数据相关性分析二类属性相关性分析–person相关系数多类属性相关性分析–熵## 因子分析...

2019-02-15 05:26:21 145

原创 数据分析与数据挖掘实践(4)--多因子探索分析

1.假设检验原假设H0 反命题为H1选择检验统计量根据显著水平(一般为0.05),确定拒绝域根据P值或样本统计值,作出判断卡方检验:两因素之间有无强联系T分布:两因素之间有无分布关系2.方差检验(F分布)检验样本之间两两之间是否有关3.相关系数两组数据分布趋势变化趋势(正相关,负相关,不相关)Pearson相关系数Speraman相关系数(只与名词有关)4.线性...

2019-02-13 03:27:21 280

原创 数据分析与数据挖掘实践(3)——图形

柱状图import pandas as pdimport numpy as npdf = pd.read_csv("/Users/chris/Desktop/Python Course/Show/HR.csv")import seaborn as snssns.set_style(style="darkgrid")sns.set_context(context="paper",font...

2019-02-13 02:17:17 149

原创 数据分析与数据挖掘实践(2)——单因子探索分析与可视化

1. 以HR数据为例1. 了解数据1.倒入数据了解标题栏import pandas as pddf = pd.read_csv("/Users/chris/Desktop/Python Course/Show/HR.csv")df.head(10)2.数学基础1.集中趋势均值,中位数,众位数,分位数(4分位数)Q1=(n+1)*0.25Q2=(n+1)*0.5Q3=(n+1...

2019-02-11 23:18:29 193

原创 数据分析与数据挖掘实践(1)——数据获取

1.数据分析的含义:使用统计分析的方法,提取有用的信息,总结和概括的过程。2.数据分析流程:数据获取-探索分析与可视化(数据分析)-预处理数据-分析建模-模型评估(数据挖掘)1. 数据获取##1. 数据仓库将所有业务书经汇总处理,构成数据仓库记录全部事实部分维度与数据的整理(数据集市-DM)#数据仓库和数据库的区别1.仓库面向主题存储,数据库面向业务存储2.数据库针对应用,仓库针...

2019-02-11 06:55:54 453

原创 Python数据获取——爬虫(1)

Python数据获取——爬虫(1)1. 利用Request()方法req = urllib.request.Request(url,headers)构建请求对象res = urllib.request.urllopen(req)构建响应对象html = res.read().decode(“utf-8”)获取内容import urllib.requestimport urllib.pa...

2019-02-11 00:56:23 103

原创 ## BA--intro

商业分析–introTo make a better decision in Business数据类型(Type of data)1.Quantitative & Categorical2.Cross section 横截面数据3.Tims serious data 时序数据是指时间序列数据。时间序列数据是同一统一指标按时间顺序记录的数据列5相对随机分布:给定一个事件A,事件...

2019-02-03 01:56:00 109

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除