- 博客(10)
- 收藏
- 关注
原创 产品
1.挖掘需求 云音乐的评论 暗恋 男女友 青春 揣摩用户心理满足用户深层次的需求 产生粘性 和品相关群体之上:爱现心理 (鄙视链 满足成就感)小众产品应该和产品风格挂钩 罗永浩共鸣心理 科比退役歌单群体极化 群体容易相互认同相互鄙视 适当允许群体见的矛盾 需要控制住 关注核心群体的动向 关注意见领袖 留住意见领袖洞察用户需求 培养同理心 设身处地的站在用户场景思考多读书,多看电影,听...
2019-03-31 10:09:26 128
原创 数据分析与数据挖掘实践(6)--数据清洗
数据样本抽样样本具有代表性(比例保持一致)样本比例平衡以及样本不平衡时如何处理尽量使用全量数据Hadoop spark1.异常值(空值)处理1.识别异常值和重复值Pandas:isnull()/duplicated2.直接丢弃Pandas:drop()/dropna()/drop_duplicated()3.异常值(空值)处理当是否有异常当作一个新的属性,代替原值Pandas...
2019-02-22 07:09:46 425
原创 数据分析与数据挖掘实践(5)--交叉分析
#交叉分析left # piv_tb=pd.pivot_table(df, values="left", index=["department", "salary"], columns=["time_spend_company"],aggfunc=np.mean) # piv_tb=pd.pivot_table(df, values="left",index=["depar.
2019-02-16 01:29:35 310
原创 数据分析与数据挖掘实践(4)--复合fenxi
1. 交叉分析2.分组与钻取钻取定义:钻取是改变分析的维度,变换分析的粒度。钻取分为向下钻取和向上钻取。连续分组:连续属性的分组需要离散化。第一步是看其数据分布第二步看有无分隔和拐点第三步可以使用kmeans或者不纯度GINI系数来计算。3.相关分析不连续数据相关性分析二类属性相关性分析–person相关系数多类属性相关性分析–熵## 因子分析...
2019-02-15 05:26:21 145
原创 数据分析与数据挖掘实践(4)--多因子探索分析
1.假设检验原假设H0 反命题为H1选择检验统计量根据显著水平(一般为0.05),确定拒绝域根据P值或样本统计值,作出判断卡方检验:两因素之间有无强联系T分布:两因素之间有无分布关系2.方差检验(F分布)检验样本之间两两之间是否有关3.相关系数两组数据分布趋势变化趋势(正相关,负相关,不相关)Pearson相关系数Speraman相关系数(只与名词有关)4.线性...
2019-02-13 03:27:21 280
原创 数据分析与数据挖掘实践(3)——图形
柱状图import pandas as pdimport numpy as npdf = pd.read_csv("/Users/chris/Desktop/Python Course/Show/HR.csv")import seaborn as snssns.set_style(style="darkgrid")sns.set_context(context="paper",font...
2019-02-13 02:17:17 149
原创 数据分析与数据挖掘实践(2)——单因子探索分析与可视化
1. 以HR数据为例1. 了解数据1.倒入数据了解标题栏import pandas as pddf = pd.read_csv("/Users/chris/Desktop/Python Course/Show/HR.csv")df.head(10)2.数学基础1.集中趋势均值,中位数,众位数,分位数(4分位数)Q1=(n+1)*0.25Q2=(n+1)*0.5Q3=(n+1...
2019-02-11 23:18:29 193
原创 数据分析与数据挖掘实践(1)——数据获取
1.数据分析的含义:使用统计分析的方法,提取有用的信息,总结和概括的过程。2.数据分析流程:数据获取-探索分析与可视化(数据分析)-预处理数据-分析建模-模型评估(数据挖掘)1. 数据获取##1. 数据仓库将所有业务书经汇总处理,构成数据仓库记录全部事实部分维度与数据的整理(数据集市-DM)#数据仓库和数据库的区别1.仓库面向主题存储,数据库面向业务存储2.数据库针对应用,仓库针...
2019-02-11 06:55:54 453
原创 Python数据获取——爬虫(1)
Python数据获取——爬虫(1)1. 利用Request()方法req = urllib.request.Request(url,headers)构建请求对象res = urllib.request.urllopen(req)构建响应对象html = res.read().decode(“utf-8”)获取内容import urllib.requestimport urllib.pa...
2019-02-11 00:56:23 103
原创 ## BA--intro
商业分析–introTo make a better decision in Business数据类型(Type of data)1.Quantitative & Categorical2.Cross section 横截面数据3.Tims serious data 时序数据是指时间序列数据。时间序列数据是同一统一指标按时间顺序记录的数据列5相对随机分布:给定一个事件A,事件...
2019-02-03 01:56:00 109
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人