数据分析实战45讲(笔记)
amorcyc
这个作者很懒,什么都没留下…
展开
-
数据分析实战45讲笔记(22)SVM
SVM的英文叫Support Vector Machine,中文名为支持向量机。它是常见的一种分类方法,在机器学习中,SVM是有监督的学习模型。SVM作为有监督的学习模型,通常可以帮我们模式识别、分类以及回归分析。如果在同一个平面上来看,红蓝两种颜色的球是很难分开的。在这里,二维平面变成了三维空间。原来的曲线变成了一个平面。这个平面,我们就叫做超平面。1.SVM原理用S...原创 2020-04-25 10:21:50 · 793 阅读 · 1 评论 -
数据分析实战45讲(20)朴素贝叶斯分类(一)
贝叶斯原理跟我们的生活联系非常紧密。举个例子,如果你看到一个人总是花钱,那么会推断这个人多半是个有钱人。当然这也不是绝对,也就是说,当你不能准确预知一个事物本质的时候,你可以依靠和事物本质相关的事件来进行判断,如果事情发生的频次多,则证明这个属性更有可能存在。1.贝叶斯原理贝叶斯解决一个叫“逆向概率”问题,即尝试解答在没有太多可靠证据的情况下,怎样做出更符合数学逻辑的推测。所谓“逆向概...原创 2020-04-23 12:09:12 · 1172 阅读 · 2 评论 -
数据分析实战45讲笔记(19)泰坦尼克案例
决策树分类的应用场景非常广泛,在各行各业都有应用,比如在金融行业可以用决策树做贷款风险评估,医疗行业可以用决策树生成辅助诊断,电商行业可以用决策树对销售额进行预测等。案例:泰坦尼克号乘客的生存预测sklearn中只实现了ID3与CART决策树,其中有一个参数是criterion,意为标准。它决定了构造的分类树是采用ID3分类树,还是CART分类树,对应的取值分别是entropy或者gini:...原创 2020-04-20 14:33:29 · 1191 阅读 · 0 评论 -
数据分析实战45讲笔记(18)CART
决策树,基于信息度量的不同方式,我们可以把决策树分为ID3算法、C4.5算法和CART算法CART算法,英文全称叫做Classification And Regression Tree,中文叫做分类回归树。ID3和C4.5算法可以生成二叉树或多叉树,而CART只支持二叉树。同时CART决策树比较特殊,既可以作分类树,又可以作回归树。1.分类树与回归树举例:如果我构造了一棵决策树,想要基于...原创 2020-04-18 12:02:56 · 467 阅读 · 0 评论 -
数据分析实战45讲笔记(15)数据可视化
1.在数据可视化产品中,一般都包括哪些视图?我们常用的可视化视图超过20种,分别包括:文本表、热力图、地图、符号地图、饼图、水平条、堆叠条、并排条、树状图、圆视图、并排圆、线、双线、面积图、双组合、散点图、直方图、盒须图、甘特图、靶心图、气泡图等。要了解使用它们背后的目的是什么,可以分为以下的9种情况:比如说,你想呈现某个变量的分布情况,就可以通过直方图的形式来呈现。如果你想要看两...原创 2020-04-16 14:36:24 · 1812 阅读 · 0 评论 -
数据分析实战45讲笔记(13) 数据转换
如果一个人在百分制的考试中得了95分,你肯定会认为他学习成绩很好,如果得了65分,就会觉得他成绩不好。如果得了80分呢?你会觉得他成绩中等,因为在班级里这属于大部分人的情况。是因为我们从小到大的考试成绩基本上都会满足正态分布的情况。正态分布也叫作常态分布,就是正常的状态下,呈现的分布情况。 在正态分布中,大部分人的成绩会集中在中间的区域,少部分人处于两头的位置。正态分布的另一个...原创 2020-04-15 15:12:52 · 853 阅读 · 0 评论 -
数据分析实战45讲(12) 数据集成
数据集成就是将多个数据源合并存放在一个数据存储中(如数据仓库),从而方便后续的数据挖掘工作。 据统计,大数据项目中80%的工作都和数据集成有关,这里的数据集成有更广泛的意义,包括了数据清洗、数据抽取、数据集成和数据变换等操作。这是因为数据挖掘前,我们需要的数据往往分布在不同的数据源中,需要考虑字段表达是否一样,以及属性是否冗余。1.数据集成的两种架构:ELT和...原创 2020-04-14 10:56:28 · 1126 阅读 · 0 评论 -
数据分析实战45笔记(11)数据清洗
做完采集数据的工作后要进行的就是数据清洗工作。在数据挖掘中,数据清洗就是这样的前期准备工作。对于数据科学家来说,我们会遇到各种各样的数据,在分析前,要投入大量的时间和精力把数据以上数据要直接进行数据分析的话是不可行的。首先这些数据缺少标注。我们在收集整理数据的时候,一定要对数据做标注,数据表头很重要。比如这份数据表,就缺少列名的标注,这样一来我们就不知道每列数据所代表的含义,无法从业务中理解这...原创 2020-04-13 17:28:10 · 1079 阅读 · 0 评论 -
数据分析实战45讲(八)自动化采集数据
数据采集是数据挖掘的基础,没有数据,挖掘也没有意义。很多时候,我们拥有多少数据源,多少数据量,以及数据质量如何,将决定我们挖掘产出的成果会怎样。一个数据的走势,是由多个维度影响的。我们需要通过多源的数据采集,收集到尽可能多的数据维度,同时保证数据的质量,这样才能得到高质量的数据挖掘结果。开放数据源一般是针对行业的数据库。比如美国人口调查局开放了美国的人口信息、地区分布和教育情况数据。除了政...原创 2020-04-10 10:10:45 · 594 阅读 · 1 评论 -
数据分析实战45讲 笔记(七) 用户画像
用户是根本,也是数据分析的出发点1.用户画像的准则将企业的用户画像做白描:用户都是谁,从哪来,要去哪。首先,用户从哪来,需要统一标识用户ID,方便对用户后续行为进行跟踪,比如餐饮店的用户,他们是为了聚餐,还是自己吃宵夜,这些场景都需要统计分析。第二,这些用户是谁?需要对这些用户进行标签化,方便我们对用户行为进行理解。第三,就是用户要到哪里去?要将这些用户画像与我们的业务相关联,提升我们的转...原创 2020-04-09 10:46:33 · 807 阅读 · 0 评论 -
数据分析实战45讲 笔记(六)数据分析要掌握的概念
1.商业智能BI、数据仓库DW、数据挖掘DM三者关系百货商店利用数据预测用户购物行为属于商业智能,他们积累的顾客的消费行为习惯会存储在数据仓库中,通过对个体进行消费行为分析总结出来的规律属于数据挖掘。商业智能的英文是Business Intelligence,缩写是BI。商业智能可以说是基于数据仓库,经过了数据挖掘后,得到了商业价值的过程。所以说数据仓库是个金矿,数据挖掘是炼金术,而商业报...原创 2020-04-08 17:39:35 · 281 阅读 · 0 评论 -
数据分析实战45讲(三):Numpy
NumPy所提供的数据结构是Python数据分析的基础。在NumPy里有两个重要的对象:ndarray(N-dimensional array object)解决了多维数组问题,而ufunc(universal function object)则是解决对数组进行处理的函数。1.1ndarray对象ndarray实际上是多维数组的含义。在NumPy数组中,维数称为秩(rank),一维数...原创 2020-04-02 23:46:22 · 444 阅读 · 0 评论 -
数据分析实战45讲 笔记(二)python基础语法
1.1 输入与输出name=input("what's your name?")print('hello %s' %name)#%name代表变量的值,%s因为输入是字符类型,所以用%s代替1.2 判断 if else语句socre=input("what's your score?")if int(socre)>=90: print("Excellent")...原创 2020-04-01 22:27:54 · 260 阅读 · 0 评论 -
《数据分析实战45讲》笔记(一)
1.1数据分析三个重要组成 数据采集。采集数据源,数据的来源。 数据挖掘。注重考察数据本身的关系,获得一些隐藏的结论,目标群体司不确定的,需要更多的是从数据的内在联系上去分析,这一部分也可以叫做数据分析的算法部分。数据挖掘的核心是挖掘数据的商业价值,也就是我们所谈的商业智能BI。 数据可视化。可以让我们直观地了解到数据分析的结果。 1.2数据采集通常会和数据源打交...原创 2020-03-30 20:40:54 · 796 阅读 · 0 评论 -
数据分析学习路线
1.1SQL 书籍:《SQL必知必会》/,《MySQL必知必会》 题库:LeetCode数据库专栏;SQL面试50题(网上直接搜);牛客SQL编程实战 除了做题,还需要对数据库知识易错点,语法,函数的用法进行总结; 从网上找到一些面试真题多加训练。总之就是刷题,总结...原创 2020-03-30 20:24:44 · 423 阅读 · 0 评论 -
数据分析实战45讲(五)Pandas(下)
上一篇文章主要介绍了Pandas的Series和DataFrame这两个数据结构,内容不全面,要了解其全面的使用方法,可以去官网或者阅读《利用python进行数据分析》。1.数据导出和输入Pandas允许直接从xlsx,csv等文件中导入数据,也可以输出到xlsx, csv等文件,非常方便。当然也不仅限于这几个格式。#将数据从excel表格中读取并且复制到data1excel表中impor...原创 2020-04-06 10:46:44 · 391 阅读 · 0 评论 -
数据分析实战45讲笔记(四)Pandas(上)
1.1pandas介绍它含有使数据清洗和分析⼯作变得更快更简单的数据结构和操作⼯具。pandas经常和其它⼯具⼀同使⽤,如数值计算⼯具NumPySciPy,分析库 statsmodels和scikit-learn,和数据可视化库matplotlib。pandas是基于NumPy数组构建的,特别是基于数组的函数和不使⽤for循环的数据处理。Pandas是专⻔为处理表格和混杂数据设计的。1.2 ...原创 2020-04-03 23:24:25 · 232 阅读 · 0 评论