自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

原创 数据分析实战45讲笔记(22)SVM

SVM的英文叫Support Vector Machine,中文名为支持向量机。它是常见的一种分类方法,在机器学习中,SVM是有监督的学习模型。SVM作为有监督的学习模型,通常可以帮我们模式识别、分类以及回归分析。如果在同一个平面上来看,红蓝两种颜色的球是很难分开的。在这里,二维平面变成了三维空间。原来的曲线变成了一个平面。这个平面,我们就叫做超平面。1.SVM原理用S...

2020-04-25 10:21:50 813 1

原创 数据分析实战45讲(20)朴素贝叶斯分类(一)

贝叶斯原理跟我们的生活联系非常紧密。举个例子,如果你看到一个人总是花钱,那么会推断这个人多半是个有钱人。当然这也不是绝对,也就是说,当你不能准确预知一个事物本质的时候,你可以依靠和事物本质相关的事件来进行判断,如果事情发生的频次多,则证明这个属性更有可能存在。1.贝叶斯原理贝叶斯解决一个叫“逆向概率”问题,即尝试解答在没有太多可靠证据的情况下,怎样做出更符合数学逻辑的推测。所谓“逆向概...

2020-04-23 12:09:12 1219 2

原创 精益数据分析笔记(Nr.13)双边市场

本模式中,公司通过帮助买家和卖家在网上达成交易来盈利。1.卖家须负责商品的上架与推广。2.市场负责人对每笔交易采取不干预政策3.买卖双方之间存在利益冲突。双边市场面临一个特殊的问题,即必须同时吸引买家和卖家。亚马逊,uber等公司解决了这一难题,主要是重点关注有钱的一方。通常这一方指的是买家,找到一群愿意花钱的人之后,再找到一群愿意挣钱的人要容易得多。案例:DuProprio公...

2020-04-22 14:59:49 530

原创 精益数据分析笔记(Nr.12)用户生成内容

Facebook,twitter等公司为用户生成内容(UGC))公司,首要目的是将用户聚集到一起,组成在线社区并生成用户内容。其核心关注点是培养一个能够生成内容的活跃用户社区;失去了用户活动,此类网站也就失去了生命力。此类商业模式需要重点关注优质内容的生成,此内容不仅局限于帖子的上传,还包括投票、评论、不良内容举报以及其他有价值的活动。UGC指优质内容与糟糕内容之间以及内容生成者和潜水者之间的...

2020-04-21 14:30:17 1879

原创 数据分析实战45讲笔记(19)泰坦尼克案例

决策树分类的应用场景非常广泛,在各行各业都有应用,比如在金融行业可以用决策树做贷款风险评估,医疗行业可以用决策树生成辅助诊断,电商行业可以用决策树对销售额进行预测等。案例:泰坦尼克号乘客的生存预测sklearn中只实现了ID3与CART决策树,其中有一个参数是criterion,意为标准。它决定了构造的分类树是采用ID3分类树,还是CART分类树,对应的取值分别是entropy或者gini:...

2020-04-20 14:33:29 1233

原创 精益数据分析 笔记(11)媒体网站

广告是因特网的财源。很多网站都依靠广告生存,但也需要关注网站的具体内容,并努力提高特定访客的重复访问率,这些访客往往花费相当长的时间浏览网页内容。媒体网站主要经历放在广告商意图的传递上,并通过浏览、点击或销量来获取营收。广告收入有多种形式,通过出售广告位或达成赞助协议。有时广告收入与点击量或后续销售的提成有关,有时需要访客来访时显示的广告赚钱。媒体网站最关注的的是点击率和展示率,同时也...

2020-04-18 15:24:06 283

原创 数据分析实战45讲笔记(18)CART

决策树,基于信息度量的不同方式,我们可以把决策树分为ID3算法、C4.5算法和CART算法CART算法,英文全称叫做Classification And Regression Tree,中文叫做分类回归树。ID3和C4.5算法可以生成二叉树或多叉树,而CART只支持二叉树。同时CART决策树比较特殊,既可以作分类树,又可以作回归树。1.分类树与回归树举例:如果我构造了一棵决策树,想要基于...

2020-04-18 12:02:56 489

原创 精益数据分析笔记(Nr.10)免费移动应用

1.移动应用的开发者通过以下几种方式在应用内赚钱:1>可下载内容(例如新的地图)2>游戏方面的付费内容,广告3>追加销售至付费版本2.例子假设一款手机游戏,可通过游戏内的购买和广告来盈利。用户可通过应用商店的搜索功能或在推荐榜单中找到这款应用,并在参考相关评分、下载量、同一开发者的其他应用以及用户评价后,最终决定下载这款应用,开始使用这款游戏。玩家可花费游...

2020-04-16 15:36:52 258

原创 数据分析实战45讲笔记(15)数据可视化

1.在数据可视化产品中,一般都包括哪些视图?我们常用的可视化视图超过20种,分别包括:文本表、热力图、地图、符号地图、饼图、水平条、堆叠条、并排条、树状图、圆视图、并排圆、线、双线、面积图、双组合、散点图、直方图、盒须图、甘特图、靶心图、气泡图等。要了解使用它们背后的目的是什么,可以分为以下的9种情况:比如说,你想呈现某个变量的分布情况,就可以通过直方图的形式来呈现。如果你想要看两...

2020-04-16 14:36:24 1906

原创 精益数据分析笔记(Nr.9)SaaS

SaaS指按需提供软件的公司,通常以网站形式出现。大部分的SaaS提供商以月费或者年费的形式获取利益。一些提供上回按实际硬件消耗(存储空间的使用量、占用的带宽或计算能力)收费,但 这种模式很大程度上受到基础设施即服务和平台即服务云计算公司的限制。很多SaaS提供商选择将其服务分层出售,找寻层级和价格的最佳组合是一大挑战(寻找向已有客户追加销售的方法,从而升级至更高且获利更多的层级)。不关注...

2020-04-15 16:36:14 386

原创 数据分析实战45讲笔记(13) 数据转换

如果一个人在百分制的考试中得了95分,你肯定会认为他学习成绩很好,如果得了65分,就会觉得他成绩不好。如果得了80分呢?你会觉得他成绩中等,因为在班级里这属于大部分人的情况。是因为我们从小到大的考试成绩基本上都会满足正态分布的情况。正态分布也叫作常态分布,就是正常的状态下,呈现的分布情况。 在正态分布中,大部分人的成绩会集中在中间的区域,少部分人处于两头的位置。正态分布的另一个...

2020-04-15 15:12:52 871

原创 精益数据分析 笔记(Nr.8)商业模式一:电子商务

早期的电子商务模式有一个相对简单的漏斗构成:访客在网站浏览了一系列网页后,驻足于某件商品冰点价购买按钮,然后提供相应的支付信息,并完成了此次交易。 但现如今的电子商务很少这么简单:大多数买家通过搜索找到所买物品,而非通过电商网站的内部导航。商买家可通过推荐引擎来预测买家还可能需要的物品。电商商家无时无刻不在优化网站的性能,这在很多时候表现为来访流量,并区别对待来源...

2020-04-14 16:05:46 1244

原创 数据分析实战45讲(12) 数据集成

数据集成就是将多个数据源合并存放在一个数据存储中(如数据仓库),从而方便后续的数据挖掘工作。 据统计,大数据项目中80%的工作都和数据集成有关,这里的数据集成有更广泛的意义,包括了数据清洗、数据抽取、数据集成和数据变换等操作。这是因为数据挖掘前,我们需要的数据往往分布在不同的数据源中,需要考虑字段表达是否一样,以及属性是否冗余。1.数据集成的两种架构:ELT和...

2020-04-14 10:56:28 1237

原创 数据分析实战45笔记(11)数据清洗

做完采集数据的工作后要进行的就是数据清洗工作。在数据挖掘中,数据清洗就是这样的前期准备工作。对于数据科学家来说,我们会遇到各种各样的数据,在分析前,要投入大量的时间和精力把数据以上数据要直接进行数据分析的话是不可行的。首先这些数据缺少标注。我们在收集整理数据的时候,一定要对数据做标注,数据表头很重要。比如这份数据表,就缺少列名的标注,这样一来我们就不知道每列数据所代表的含义,无法从业务中理解这...

2020-04-13 17:28:10 1163

原创 精益数据分析 笔记(Nr.7)你所在的商业领域

几个基本的互联网商业模式都有些共同点;一是他们的目标都在增长上,二是增长的源泉需要三大增长引擎中的一个(黏着式增长,病毒式增长,付费式增长)。 无论哪个商业模式的繁荣,都需要将这三个引擎的推力最大化(更频繁的向更多人推销更多的商品,从而转到更多的钱)。1>更多的商品意味着推出新产品和新服务,最理想的当然是那些你知道客户想要的,不然开发出来没人用,没人买。...

2020-04-13 15:07:32 256

原创 精益数据分析 笔记(Nr.6)第一指标的约束力

在上一章中提到的驱动创业增长的三大引擎:黏着式增长引擎,病毒式增长引擎,付费式增长引擎。最好在一段时间内只专注于某一个引擎,这意味着挑选一个唯一的指标,该指标对你当前所处的创业阶段无比重要(OMTM,第一关键指标)。 第一关键指标就是在一个当前阶段需要你集中全部注意力的数字。在问题验证阶段关心客户终身价值并没有什么意义,但当你接近产品与市场时,他就是你的专注点。 当然你可以跟踪和考...

2020-04-11 12:12:28 262

原创 精益数据分析 笔记(Nr.5)数据分析框架

1 海盗指标(AARRR)五大指标有:获取用户(Acquisition),提升活跃度(Activiation),提高留存率(Retention),获取营收(Revenue),自传播(Referral)2.增长引擎说驱动创业增长的三大引擎:黏着式增长引擎;病毒式增长引擎;付费式增长引擎1>黏着式增长引擎的重点是让用户成为回头客,并且持续使用的你产品(提高留存率),如果用...

2020-04-10 11:55:16 560

原创 数据分析实战45讲(八)自动化采集数据

数据采集是数据挖掘的基础,没有数据,挖掘也没有意义。很多时候,我们拥有多少数据源,多少数据量,以及数据质量如何,将决定我们挖掘产出的成果会怎样。一个数据的走势,是由多个维度影响的。我们需要通过多源的数据采集,收集到尽可能多的数据维度,同时保证数据的质量,这样才能得到高质量的数据挖掘结果。开放数据源一般是针对行业的数据库。比如美国人口调查局开放了美国的人口信息、地区分布和教育情况数据。除了政...

2020-04-10 10:10:45 642 1

原创 数据分析实战45讲 笔记(七) 用户画像

用户是根本,也是数据分析的出发点1.用户画像的准则将企业的用户画像做白描:用户都是谁,从哪来,要去哪。首先,用户从哪来,需要统一标识用户ID,方便对用户后续行为进行跟踪,比如餐饮店的用户,他们是为了聚餐,还是自己吃宵夜,这些场景都需要统计分析。第二,这些用户是谁?需要对这些用户进行标签化,方便我们对用户行为进行理解。第三,就是用户要到哪里去?要将这些用户画像与我们的业务相关联,提升我们的转...

2020-04-09 10:46:33 852

原创 精益数据分析 笔记(Nr.3)

数据画布是呈现在一张纸上的可视化简明商业计划书,体现你正在进行的,可付诸行动的商业计划。 他能让人很容易的发现创业中最大的风险,并促使你理性,诚实的看待自己的创业。当你不确定是否真的找到了一个好的创业机会时,考虑以下几个问题: (1)问题 (2)客户群体分类:你的目标市场是什么?如何把信息定向传达给特定群体? (3)独...

2020-04-08 20:27:30 201

原创 数据分析实战45讲 笔记(六)数据分析要掌握的概念

1.商业智能BI、数据仓库DW、数据挖掘DM三者关系百货商店利用数据预测用户购物行为属于商业智能,他们积累的顾客的消费行为习惯会存储在数据仓库中,通过对个体进行消费行为分析总结出来的规律属于数据挖掘。商业智能的英文是Business Intelligence,缩写是BI。商业智能可以说是基于数据仓库,经过了数据挖掘后,得到了商业价值的过程。所以说数据仓库是个金矿,数据挖掘是炼金术,而商业报...

2020-04-08 17:39:35 298

原创 《精益数据分析》笔记(Nr.2)

1.好的数据指标衡量好坏的准则: 1> 好的数据指标是比较性的。能比较某数据指标在不同的时间段,用户群体、竞争产品之间的表现,可以更好地洞察产品实际的走向。例“本周用户转化率比上周高”。 2> 好的数据指标是简单易懂的。 3> 好的数据指标是一个比率。因为可操作性强,例开车时的速度比距离强,可告诉你是否需要调整以确保按时到达;比率是比较指标,例将当前速率与...

2020-04-07 14:19:19 647

原创 数据分析实战45讲(五)Pandas(下)

上一篇文章主要介绍了Pandas的Series和DataFrame这两个数据结构,内容不全面,要了解其全面的使用方法,可以去官网或者阅读《利用python进行数据分析》。1.数据导出和输入Pandas允许直接从xlsx,csv等文件中导入数据,也可以输出到xlsx, csv等文件,非常方便。当然也不仅限于这几个格式。#将数据从excel表格中读取并且复制到data1excel表中impor...

2020-04-06 10:46:44 415

原创 数据分析实战45讲笔记(四)Pandas(上)

1.1pandas介绍它含有使数据清洗和分析⼯作变得更快更简单的数据结构和操作⼯具。pandas经常和其它⼯具⼀同使⽤,如数值计算⼯具NumPySciPy,分析库 statsmodels和scikit-learn,和数据可视化库matplotlib。pandas是基于NumPy数组构建的,特别是基于数组的函数和不使⽤for循环的数据处理。Pandas是专⻔为处理表格和混杂数据设计的。1.2 ...

2020-04-03 23:24:25 243

原创 数据分析实战45讲(三):Numpy

NumPy所提供的数据结构是Python数据分析的基础。在NumPy里有两个重要的对象:ndarray(N-dimensional array object)解决了多维数组问题,而ufunc(universal function object)则是解决对数组进行处理的函数。1.1ndarray对象ndarray实际上是多维数组的含义。在NumPy数组中,维数称为秩(rank),一维数...

2020-04-02 23:46:22 470

原创 数据分析实战45讲 笔记(二)python基础语法

1.1 输入与输出name=input("what's your name?")print('hello %s' %name)#%name代表变量的值,%s因为输入是字符类型,所以用%s代替1.2 判断 if else语句socre=input("what's your score?")if int(socre)>=90: print("Excellent")...

2020-04-01 22:27:54 264

原创 《数据分析实战45讲》笔记(一)

1.1数据分析三个重要组成 数据采集。采集数据源,数据的来源。 数据挖掘。注重考察数据本身的关系,获得一些隐藏的结论,目标群体司不确定的,需要更多的是从数据的内在联系上去分析,这一部分也可以叫做数据分析的算法部分。数据挖掘的核心是挖掘数据的商业价值,也就是我们所谈的商业智能BI。 数据可视化。可以让我们直观地了解到数据分析的结果。 1.2数据采集通常会和数据源打交...

2020-03-30 20:40:54 834

原创 数据分析学习路线

1.1SQL 书籍:《SQL必知必会》/,《MySQL必知必会》 题库:LeetCode数据库专栏;SQL面试50题(网上直接搜);牛客SQL编程实战 除了做题,还需要对数据库知识易错点,语法,函数的用法进行总结; 从网上找到一些面试真题多加训练。总之就是刷题,总结...

2020-03-30 20:24:44 431

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除