自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 13 数据变换

在数据变换前,我们需要先对字段进行筛选,然后对数据进行探索和相关性分析,然后是选择算法模型,然后针对算法模型对数据的需求进行数据转换,从而完成数据挖掘前的准备工作。 数据变换是数据准备的重要环节,它通过数据平滑、数据聚集、数据概化和规范化方法等方式将数据转化为适用于数据挖掘的形式。 常用数据变换方法: (1)数据平滑:去除数据中的噪声,将连续数据离散化。可以采用分箱、聚类和回归方...

2019-03-13 21:15:50 537

原创 12 数据集成

数据集成就是将多个数据源合并存放在一个数据存储中(如数据仓库),从而方便后续的数据挖掘工作。 数据集成的两种架构:ELT和ETL ETL(Extract、Transform、Load)抽取、转换、加载:在数据源抽取后首先进行转换,然后将转换的结果写入到目的地。 ELT(Extract、Load、Transform)抽取、加载、转换:在抽取后将结果先写入目的地,然后利用数据库的聚合分析能力或者...

2019-03-12 23:38:51 273

原创 11 数据清洗

在数据分析过程中,数据清洗在时间上占到了80%。 数据质量的准则(“完全合一”) (1)完整性:单条数据是否存在空值,统计的字段是否完善。 (2)全面性:观察某一列的全部数值,通过常识来判断该列是否有问题。 (3)合法性:数据的类型、内容、大小的合法性。 (4)唯一性:数据是否存在重复记录 数据清理要使数据标准、赶紧、连续,为后续数据统计、数据挖掘做好准备。 1、完整性 问题1...

2019-03-12 23:08:20 240

原创 08 数据采集:如何自动化采集数据?

如何使用爬虫做抓取 (1)Python爬虫,大致经过三个过程:使用Requests爬取内容、使用XPath解析内容、使用Pandas保存数据。 (2)抓取工具:火车采集客、八爪鱼、集搜客 如何使用日志采集工具 日志采集通过分析用户访问情况,提升系统性能,从而提高系统承载量。 日志采集分为两种: (1)通过Web服务器采集 (2)自定义采集用户行为 埋点是在有需要的位...

2019-03-12 22:26:06 484

原创 07 用户画像:标签化就是数据的抽象能力

在推荐系统的很多论文中,很多基于标签进行推荐的,感觉用户画像就是给用户贴很多的标签,尽可能的描述该用户。 用户画像的准则 首先,岁用户设计唯一标识,用户唯一标识是用户画像的核心。 然后,给用户贴标签,这个过程中,用户标签的选择很多,因此可以从“用户消费行为分析”四个维度来进行标签划分 (1)用户标签:包含性别。年龄、区域、收入、学历、职业等,包括了用户的基础属性。 (2) 消费...

2019-03-12 21:52:45 648 1

原创 数据分析基本概念

商业智能BI、数据仓库DW、数据挖掘DM三者之间的关系 商业智能相对于数据仓库、数据挖掘是一个更大的概念,可以说是基于数据仓库,经过数据挖掘后,得到商业价值的过程。 数据仓库是数据库的升级概念,存储的数据量更大,将原有的多个数据源中的数据汇总整理得到,进入数据仓库前,必须消除不一致性。 数据挖掘的核心包括分类、聚类、预测、关联分析等任务。 元数据VS数据元 元数据:描述其他数据...

2019-03-12 21:21:27 428

原创 Python科学计算:Pandas

Pandas我也是以前听说过它的大名,但是没有真正的接触过,通过这门课的学习真的收获了很多。 Pandas主要是围绕:Series和DataFrame两种核心数据结构进行操作的 1.数据结构:Series和DataFrame Series是一个定长的字典序列,在存储时相当于两个ndarray,意思是说series长度不能太长吗?也不太懂 Series有两个基本属性:index和valu...

2019-03-08 11:38:24 200

原创 Python科学计算:用Numpy快速处理数据

为什么使用NumPy而不是list,是因为list元素在系统内存中是分散存储的,而NumPy数组存储在一个均匀连续的内存块中,这样数组计算遍历所有的元素,不像list还需要对内存地址进行查找,从而节省计算资源。 并且在内存访问中,缓存会直接把字节块从RAM加载到CPU寄存器中,因为数据连续存储在内存中,NumPy直接利用现代CPU的矢量化指令运算,加载寄存器中的多个连续浮点数,另外NumPy中的...

2019-03-07 22:50:24 267

原创 数据分析实战-Python基础语法

进入到我自己最喜欢(最怕)的Python课程了。 1.Python版本的选择 目前主要有Python 2.7和Python3.x可以选择,版本选择的标准是看你的项目有没有依赖于Python 2.7的包,如果有依赖的,只能选择2.7,否则可以用Python 3.x开始新的项目,我用的是Python 3.x,但是老师好像用的是2.7的,有点区别,但是区别不大 2.Python IDE推荐 Py...

2019-03-07 20:50:08 303

原创 数据分析实战基础(2)

数据挖掘知识清单 1.基本流程 (1)商业理解:从商业的角度理解项目需求,如果对自己分析的数据的行业都不了解的话就很难理解数据,也不知道自己要得到什么数据。 (2)数据理解:收集部分数据,对数据进行探索 (3)数据准备:开始收集数据,对数据进行清洗、集成等预处理,在实际数据分析的过程中可能需要消耗大量的时间来处理数据 (4)模型建立:选择和应用各种数据挖掘模型 (5)模型评估:确认模型...

2019-03-07 19:31:39 224

原创 数据分析实战基础

最近听了陈旸老师的《数据分析实战45讲》,老师说的分享对于理解知识有很重要的作用,很有感触。以往学习相关的课程我都是记在笔记本上,没有记博客的习惯,那现在开始要养成这个习惯啦,这也是我的第一篇博客。 (一)为什么需要数据分析能力 MAS方法 M:Multi-Dimension多个角度认识事物,特别是在数据分析的过程中,工具有可能大家掌握的程度都差不多,但是对于行业...

2019-03-07 19:06:13 604

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除