数据分析
夜路破晓
灵魂要在黑夜中加以净化,就该走到黑夜的尽头,才能够接受光明。
展开
-
数据分析02|NumPy库
文章目录NumPy库为什么这么重要对多维数组的理解NumPy基础操作NumPy库是Python所有三方库中使用最多的,也是诸如SciPy、Panda等其他三方库的基础库,所以作为基本功是要求务必学习掌握的,这也是后期利用Python进行大数据分析的基础。下面我将从三个维度将自己学习NumPy库的心得体会进行总结(若是需求更多的学习资料,可以进入我的 Github 进行查阅,里面有详细的学习笔记...原创 2019-04-27 22:44:11 · 185 阅读 · 0 评论 -
Python基础01|环境搭建,基础讲解,基本数据类型之数字
开篇语顾名思义,这是我个人自学python的初始,基础篇当中的基础知识梳理。先自我介绍下写下这篇博客时我的python水平:自学python月余,主要做了三件事:1.安装Aanconda 和 Pycharm;2.买了本《Python编程从入门到实战》,同时在网上买了套python基础的视频教程;3.结合视频教程开始看书,目前看到了第8章 函数。所以,对于之前毫无编程经验的我来说,完全新手...原创 2019-02-26 21:54:31 · 385 阅读 · 0 评论 -
Python基础02|基本数据类型:列表,元组,字符串
列表标志基本操作相关方法元组标志基本操作string字符串定义及基本操作相关方法字符串格式化问题原创 2019-03-01 00:01:18 · 252 阅读 · 0 评论 -
Python基础03|字典,集合,判断语句,循环语句
文章目录开始先补充一个知识点。我们知道在python中有六种基本数据类型,分别是Number(数字) ,String(字符串) ,List(列表) ,Tuple(元组) ,Set(集合) ,Dictionary(字典)。这六种基本数据类型又可根据对象是否可变划分成可变型数据与不可变型数据两部分。其中Number(数字) ,String(字符串) ,Tuple(元组)都是不可变类型;而List(...原创 2019-03-03 10:58:52 · 281 阅读 · 0 评论 -
Python基础04|函数的基础知识
文章目录python中关键字、函数及方法的区别关键字函数的定义函数参数函数作用域函数返回值从本篇开始我们将进入函数知识的学习。随着学习过程的深入,你将发现代码世界的神奇会逐步展现在你的面前,一种有别于从前、渐渐习得的思维方式(编程思维)将会让你领略到世界别样的精彩,而思维方式转换所带来的心理体验也一定会令人印象深刻。python中关键字、函数及方法的区别在学习函数知识之前,我们有必要先来理清...原创 2019-03-04 23:29:44 · 240 阅读 · 0 评论 -
Python基础05|文件,模块,类与对象,正则表达式
文章目录file打开文件方式(读写两种方式)文件对象的操作方法学习对excel及csv文件进行操作os模块datetime模块类和对象正则表达式re模块http请求file打开文件方式(读写两种方式)文件对象的操作方法学习对excel及csv文件进行操作os模块datetime模块类和对象正则表达式re模块http请求...原创 2019-03-07 16:01:45 · 197 阅读 · 0 评论 -
Python基础06|实战:用python画佩奇
文章目录参考资料turtle库:成果展示:参考代码:写在最后的话通过前面的学习,我们掌握了python相关基础知识,下面我们通过一个实战项目来对以往所学知识进行一次整体复盘。同时,通过实战项目我们可以初步掌握python在实际应用中如何具体进行编程操作的。此项目中涉及到一个叫做“turtle”(海龟画图)的python标准库,如果你对这个库感到陌生,也不要着急,可以参考学习下面这篇资料之后再进行...原创 2019-03-08 15:08:02 · 670 阅读 · 0 评论 -
MySQL学习02|语法基础
文章目录SQL是什么?MySQL是什么?查询语句select from筛选语句where分组语句group by排序语句order by函数SQL注释SQL代码规范本篇是基础的SQL语法学习,学完了这些内容可以说就掌握了SQL语句。首先通过MySQL导入示例数据库,至于使用cmd还是navicat根据自身情况来安排。*导入示例数据库https://www.yiibai.com/mysql/h...原创 2019-04-02 15:35:04 · 151 阅读 · 0 评论 -
MySQL学习03|表操作,表联结
文章目录MySQL表数据类型用SQL语句创建表用SQL语句向表中添加数据用SQL语句删除表用SQL语句更新表MySQL别名SQL JOIN表联结在掌握了SQL语句的基本语法之后,我们下面将进入实操阶段。在实际工作当中,SLQ语句应用最频繁的地方就是对表(TABLE)的各种操作。在关系型数据库当中,绝大部分任务都是根据业务需求编写SQL代码从数据库中各种表中增删改查所需数据,有时候是对一个表操作,...原创 2019-04-04 03:58:34 · 210 阅读 · 0 评论 -
MySQL学习04|项目实战
文章目录上部数据的导入导出项目一:各部分工资最高的员工项目二:换座位项目三:分数排名项目四:行程与用户项目五:各部门前3高工资的员工项目六:分数排名下部参考代码以及解析通过前面三篇的学习分享,你应该基本掌握了SLQ语言以及MySQL的相关知识。下面分享几个实战项目提供给你作为练手,其中上部为项目内容,下部为参考答案。作为知识学习的目的之一,应用实践能力应当摆在首要位置。所以,学了不一定懂了,懂了...原创 2019-04-21 22:28:02 · 330 阅读 · 0 评论 -
MySQL学习05|数据的导入导出
作为常规操作,数据的导入导出是MySQL学习中务必要求掌握的知识。当然大多数情况下,MySQL数据库中对数据操作导入导出还是相对固定而简单,下面我们一起来了解下。导出数据参考资料:https://www.yiibai.com/mysql/export-table-to-csv.htmlCSV代表逗号分隔值。 您经常使用CSV文件格式在Microsoft Excel,Open Office...原创 2019-04-21 22:49:05 · 92 阅读 · 0 评论 -
数据分析12|分类算法之SVM
算法学习第三篇,关键理解概念超平面,分类间隔与核函数.依照惯例附上学习笔记链接,请君享用:分类算法之SVM原创 2019-07-11 23:06:16 · 260 阅读 · 0 评论 -
数据分析11|分类算法之朴素贝叶斯
算法第二篇,关键是理解逆向概率,区分贝叶斯原理、贝叶斯分类器和朴素贝叶斯三者间的关系。以下附上学习笔记链接,供君享用:分类算法之朴素贝叶斯...原创 2019-07-10 19:19:38 · 186 阅读 · 0 评论 -
数据分析10|分类算法之决策树
从本篇开始进入数据挖掘算法部分的学习。之前对算法敬畏若神,但通过近段时间https://github.com/yelupoxiao/myPython/blob/master/数据分析/知识体系/10.分类算法之决策树.ipynb...原创 2019-07-10 19:11:50 · 165 阅读 · 0 评论 -
数据分析09|数据转换
讲点题外话。近一个月多都是在github上写学习笔记很少来cdsn。之前是在git上写完再粘贴到cdsn这边,后来闲复来粘去浪费时间精力,就把复制粘贴的步骤cut了。但是最近发现一个问题:自从cut掉复制粘贴的步骤后,我发现自己的学习效率下降得厉害。之前学习劲头非常足,现在学习经常会感到乏味。我不能确认,学习劲头下降跟cut的行为两者间是否有关联,但最近看到一篇讲提升学习效率的文章,说道提升学...原创 2019-07-08 18:50:06 · 116 阅读 · 0 评论 -
数据分析04|数据分析基本概念
假如你是几年前开始接触数据分析,将会被告知数据分析就像厨师炒菜,按照菜谱(设计方案)采购食材(数据采集),然后是洗菜(数据处理),接着是下锅烹饪(数据分析),经过打荷(数据展现)后最终端菜上桌(撰写报告)。这也是数据分析的常规流程,而括号内的概念是每个入门数据分析人员要务必掌握的基本概念,至少要能了解这些步骤分别代表什么、能实现什么功能以及具体如何实现。不过自从大数据概念进入广泛应用后,数据分析...原创 2019-05-08 15:13:19 · 675 阅读 · 0 评论 -
数据分析01|数据分析知识体系
原创 2019-05-08 15:18:14 · 408 阅读 · 0 评论 -
数据分析07|数据清洗
文章目录数据清洗"完全合一"利用Pandas进行数据清洗1.完整性2.全面性3.合理性4.唯一性养成数据审核的习惯经过数据采集得到的数据,通常情况下是无法直接拿来用的,因为可能存在缺失值、空行、重复行等等诸多问题。因此需要对采集得到的数据做一些必要的处理,也就是数据清洗。就好比炒菜一样,大部分时间都花在准备上,如买菜、择菜、洗菜等。在整个数据分析过程中,不论是 在时间还是 功夫上,数据清洗大概占...原创 2019-05-13 20:44:23 · 525 阅读 · 0 评论 -
数据分析05|用户画像
对用户画像换个角度理解就是业务需求,而标签化则是用户画像的关键步骤,通过对用户打标签达到快速理解用户群体的目的,以此为依据帮助企业进行精准化营销从而实现销量的增长.用户画像是数据分析的起点,更准确地说是业务需求是数据分析的起点,而"打标签"可以算是数据分析的基本功,也是小白和高手的分水岭.拿用户画像来说,小白常常迷茫于找不到切入点,往往是表面工作做了一大堆但多是"隔靴搔痒",对实际业务半毛钱的...原创 2019-05-09 00:13:14 · 314 阅读 · 0 评论 -
统计学02|中心极限定理,置信区间
文章目录中心极限定理伯努利分布置信区间中心极限定理在上一篇统计学01|基础知识、二项分布、泊松分布、正态分布提到过一个“大数定律”的概念,指随着数据量的增加数据会呈现出一定的规律。中心极限定理正是“大数定律”的其中之一。中心极限定理是指在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量之和近似服从正态分布...原创 2019-05-14 08:16:31 · 561 阅读 · 0 评论 -
数据分析03|Pandas库
文章目录在NumPy中数据结构是以ndarray展开的,也就是多维数组(大数据分析基础02|NumPy库),而Pandas是基于NumPy构建的含有更高级数据结构的工具包,也就是Series和DataFrame这两个核心数据结构,分别代表了一维序列和二维表结构。同时,基于两个核心数据结构,通过Pandas我们可以对数据进行导入、清洗、处理、统计和输出。...原创 2019-05-07 00:14:28 · 145 阅读 · 0 评论 -
统计学03|假设检验
文章目录假设检验与第一类型错误单侧检验和双侧检验Z统计量和T统计量均值之差假设检验与第一类型错误假设检验本质是一种逆向思维的应用。用大白话讲,就是假如你想证明自己能办成一件事,可以先假设你办不成这件事,通过证明办不成这件事发生的概率非常小来论证这件事是可以办成的。在统计学中,这个办不成这件事的假设被称为零假设,记为H0H_0H0,而你办成这件事的假设(在事实发生之前同样是假设)被称为备择假...原创 2019-05-16 01:21:31 · 332 阅读 · 0 评论 -
统计学01|基础知识、二项分布、泊松分布、正态分布
文章目录基础知识概念释义数据描述概率分布两个概念二项分布泊松分布大数定律正态分布统计学系列主要是对统计学知识进行梳理以及对学习过程的分享,以期提升对统计学相关知识体系化认知水平。本文是该系列的第一篇,主要内容包括统计学基础知识和对概率分布的介绍。基础知识概念释义统计学是在数据分析的基础上,研究测定、收集、整理、归纳和分析反映数据数据,以便给出正确消息的科学。随着大数据(Big Dat...原创 2019-05-12 21:31:14 · 8550 阅读 · 1 评论 -
数据分析06|数据采集
文章目录数据采集Python爬虫Requests访问页面XPath定位JSON对象利用JSON数据自动下载周星驰图片Python爬虫概述导图数据采集巧妇难为无米之炊。没有数据支撑一切都是空想。彼得德鲁克说过,对于一项业务如果不能衡量它,那就无法实现有效增长。衡量的本质就是量化思维,数据则是实现量化的主要手段和结果。数据(英语:data),是指未经过处理的原始记录。一般而言,数据缺乏组织及...原创 2019-05-13 11:43:48 · 605 阅读 · 0 评论 -
统计学04|线性回归,卡方分布,方差分析
文章目录线性回归(简单线性回归)决定系数卡方分布方差分析线性回归(简单线性回归)简单线性回归模型是用于估计一个连续预测变量和一个连续回应变量的线性关系。回归方程或估计回归方程表达为:f(x)=wx+bf(x)=wx+bf(x)=wx+bx是预测变量f(x)是回应变量的预测值b是回归线在y轴上的截距w是回归线的斜率b和w称为回归系数问题:只要能求出www和bbb,便能得到线性模...原创 2019-05-17 17:29:22 · 1553 阅读 · 0 评论 -
数据分析08|数据集成
文章目录概念释义数据集成的两种架构ELT工具Kettle的安装安装JDK安装Kettle概念释义数据集集成简单通俗地解释是把不同来源的数据合并存放在一起(如数据仓库),从而方便后续数据挖掘工作。如果把数据挖掘比喻成炒菜,数据集成就是备菜的过程。在实际大数据项目中,80%的工作与数据集成相关。广义的数据集成包括数据清洗、数据抽取、数据集成和数据变换等操作。那么,数据集成有什么意义?在日常实际...原创 2019-06-15 13:30:04 · 701 阅读 · 0 评论 -
关于Spark
spark集群搭建下载spark安装包,注意与Hadoop版本的匹配.在/usr/local下创建spark文件夹,然后解压我们刚才下载的包:[root@DW1 spark]# tar -zxvf spark-2.4.3-bin-hadoop2.7.tgz [root@DW1 spark]# lsspark-2.4.3-bin-hadoop2.7 spark-2.4.3-bin-hado...原创 2019-08-06 08:13:22 · 311 阅读 · 0 评论