数据挖掘
文章平均质量分 83
cg_Amaz1ng
这个作者很懒,什么都没留下…
展开
-
数据挖掘学习笔记二
数据挖掘学习笔记二数据仓库中的ETLETL作用:是数据仓库获得高质量的数据的环节。 解决数据分散问题。 解决数据不清洁问题。 方便企业各部门构筑数据集市。ETL:六个子过程数据提取(data extract) 数据验证 ( data verification)数据清理 (data cleaning) 数据集成 (data integratio原创 2017-05-02 16:40:29 · 727 阅读 · 0 评论 -
数据挖掘学习笔记一
数据挖掘学习笔记一背景随着信息技术的不断发展,大量数据的产生和收集导致信息爆炸。使用者发现获取有用信息变得越来越困难。现代社会的竞争趋势要求对数据进行实时和深层次的分析。企业需要决策支持的新技术数据仓库和数据挖掘数据仓库(DW):面向主题的,集成的,随时间不断变化的数据集合。数据挖掘(DM):从大量的数据中提取隐含的,未知的,可信而有效的知识。数据仓库以及联机分析处理(OLAP)数据仓库层原创 2017-05-02 16:32:29 · 610 阅读 · 0 评论 -
数据挖掘学习笔记三
数据挖掘学习笔记三**数据仓库模型设计及数据仓库建立数据仓库系统的设计与数据库系统设计的区别 数据库系统设计 数据仓库系统设计 面向的处理类型 面向应用 应用需求 比较明确 系统设计的目标 事务处理的分析性,安全性,高效性 数据来源 业务操作员的输入 系统设计的方法 需求驱动数据仓库设计分为两个部分数据仓库模型设计概念模型设计逻辑模型设计物理模型原创 2017-05-02 17:30:56 · 682 阅读 · 0 评论 -
数据挖掘学习笔记四
数据挖掘学习笔记四OLAP的数据模型:1.星型结构(star schema) 将事实表和维表进行连接(join),可以得到数据的值以及对数据的多维描述.2.雪花模型(snowflake schema)由”星型模型”演变来的, 某些维表是规范化的, 以便减少冗余.3.星座模型 在星型模型的基础上,具有多个事实表.4.雪暴模型在星座模型的基础上,构造维表的多层次结构. 4种模型关系图原创 2017-05-03 11:12:21 · 765 阅读 · 0 评论 -
聚类算法深度详解
转载地址:http://www.cnblogs.com/-Sai-/p/6666574.html本博客主要内容来自机器之心翻译的机器理解大数据的秘密:聚类算法深度详解。这篇文章是讲解聚类里难得一见的好文章,大家有兴趣可以阅读原文,我这里主要在原文的基础上写一些自己的总结,补充在原文后的括号里。本文主要介绍了三种聚类方法:K-均值聚类,层次聚类,图团体检测K均值聚类何转载 2017-06-01 22:10:03 · 1849 阅读 · 0 评论 -
Python爬虫抓取贴吧所有标题
这段代码用于获取指定贴吧下指定页数的所有标题。原代码不知道是使用哪位仁兄的,已经不记得了,稍微修改了下,请求超时时长为7s,并且把抓取到的文本保存到txt文档中。工作环境:python 2.7 操作系统:mac os完整代码如下:#!/usr/bin/env python#coding:utf-8import urllib2import reimport sysr原创 2017-12-23 10:14:15 · 2205 阅读 · 0 评论 -
“搜狗问问”问答语料爬虫
本人的毕业设计是构建一个基于机器学习的问答系统,需要用到大量的问题答案对,并且每个问题下都应有相应的分类标签。 鉴于网络上有分类标签的问答语料很少被人公开,本人亲自编写爬虫来抓取语料。 中文的问答网站有:百度知道、知乎、悟空问答、奇虎问答、搜狗问问等,通过筛选,最后我锁定“搜狗问问”网站。原因是:不具备反爬虫机制或者说连最基本的频繁次数限制都没有。每...原创 2018-06-02 20:54:48 · 2478 阅读 · 5 评论