自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 第十四、十五讲 数据可视化

数据可视化视图有很多,需要掌握视图的使用和其背后的目的,包括以下九种情况:需要思考,用户是谁,想呈现的内容,突出数据怎样的特点,以及采用哪种视图呈现。可视化工具工具分为以下几类:商业智能分析软件、可视化大屏、前端可视化组件和编程语言类。1、商业智能分析Tableau、PowerBI和中国软帆的FineBI2、可视化大屏类DataV、FineReport3.前端可视化组件基于W...

2019-01-22 15:23:26 420

原创 第十三讲 数据变换

数据变换是数据准备的重要环节,它通过数据平滑、数据聚集、数据概化和规范化等方式将数据转化成适用于数据挖掘的形式。数据平滑:去除数据中的噪声,将连续的数据离散化。可采用分箱、聚类和回归的方式进行数据平滑。数据聚集:对数据进行汇总,在SQL中有一些聚集函数,如:Max()、Sum().数据概化:用较高的概念替换较低的概念。如:上海、北京、深圳可以概化为中国。数据规范化:使属性数据按比例缩放,...

2019-01-21 11:20:46 2337

原创 第十二讲 数据集成

数据集成就是将多个数据源合并存放在一个数据存储中,从而方便后续的数据挖掘工作。数据集成更广泛的意义包括数据清洗、数据抽取、数据集成和数据变换等操作。数据集成的两种架构:ELT和ETLETL包括数据抽取(Extract)、转换(Transform)和加载(Load)三个过程。抽取是将数据从已有的数据源中提取出来。转换是将原始数据进行处理。加载是将表写入目的地。ELT是将抽取后的结果先写入...

2019-01-16 21:03:47 1387 1

原创 第十一讲 数据清洗

数据采集完,要进行数据清洗工作,整个数据分析过程中,数据清洗工作几乎要占到80%的时间。数据质量的准则数据清洗规则总结为四个关键点:“完全合一”。1、完整性:单条数据是否存在空值,统计的字段是否完善。2、全面性:观察某一列的全部数值,比如平均值、最大值、最小值,根据常识判断是否有问题。如:数据定义、单位标识、数值本身。3、合法性:数据的类型、内容、大小的合法性。如:存在非ASCII字符、...

2019-01-15 11:01:48 1761

原创 第十讲 Python爬虫

爬虫是用浏览器访问的方式,模拟了访问网站的过程。包括的三个阶段及对应工具:(1)打开网页:用Requests访问页面,得到服务器返回的数据,包括HTML页面以及JSON数据。(2)提取数据:针对HTML页面,使用XPath进行元素定位,提取数据;针对JSON数据,使用JSON进行解析。(3)保存数据:使用Pandas保存数据,最后导出CSV文件。Requests访问页面Requests...

2019-01-09 10:33:32 307

原创 第九讲 数据采集:用八爪鱼采集微博评论

这是专栏里的总结图,这一讲主要是对“八爪鱼”这个数据采集器进行了简要介绍,包括设计流程以及应用案例。练习:通过八爪鱼抓取豆瓣网上关于《海王》的评论。(1)输入网页:https://movie.douban.com/(2)输入关键词(3)点击搜索(4)设置循环翻页(必须先设置循环条件)(5)选择提取元素选择单条内容的最大选择区域,点击选中子元素—选中全部(6)启动采集数据量...

2019-01-07 15:01:05 14676

原创 第八讲 数据的采集

数据采集是数据挖掘的基础。一个数据的走势,是由多个维度影响的,需要通过多源的数据采集,收集尽可能多的数据维度,同时保证数据质量。数据源分为以下四类:开放数据源:针对行业的数据库。爬虫抓取:针对特定的网站和APP日志采集:统计用户的操作。在前端进行埋点,后端进行脚本收集和统计,进而分析网站的访问情况,以及使用瓶颈等。传感器:采集物理信息。采集方法1、开放数据源从两个维度考虑,一...

2019-01-04 10:14:54 488

原创 第七讲 用户画像

用户画像的准则1. 设计唯一标识用户唯一标识是用户画像的核心。唯一标识可以是:用户名、注册手机号、邮箱等等2. 给用户打标签从四个维度进行标签划分,总结为“用户消费行为分析”用户标签: 用户的基础属性,包括性别、年龄、地域、学历等。消费标签: 消费习惯、购买意向、是否对促销敏感等。行为标签: 分析用户行为,得到使用APP的习惯,包括时间段、频次、时长、访问路径等。内容分析: 对...

2019-01-03 18:44:17 363

原创 第六讲 数据分析基本概念

商业智能(BI Business Intelligence)基于数据仓库,经过数据挖掘,得到商业价值的过程。数据仓库(DW Data Warehouse)是数据库的升级概念,通过数据库技术来存储数据,将原有的多个数据源中的数据进行汇总、整理得到,数据在进入数据仓库前,必须消除数据中的不一致性。数据挖掘(DM Data Mining)数据挖掘的核心包括分类、聚类、预测、关联分析等任务。元...

2019-01-03 17:14:04 305

原创 第五讲 Pandas

Pandas是基于Numpy构建的更高级的数据结构和分析能力的工具包。核心数据结构:Series和DataFrameSeries是定长的字典序列Series基本属性:index和valueimport pandas as pdfrom pandas import Series,DataFramex1 = Series([1,2,3,4])x2 = Series(data=[1,2,...

2019-01-03 15:48:56 197

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除