数据挖掘
小叶纷飞
这个作者很懒,什么都没留下…
展开
-
web数据挖掘学习1
万维网特征:数据大,主题广泛内容丰富。各种类型的数据(结构化表格,半结构化网页,无结构化文本,多媒体)网络信息异构权威网页噪音:一张网页上的有用信息和噪声2、各界评论万维网的动态性数据挖掘:分类(监督学习)聚类(无监督学习)关联规则挖掘、序列模式挖掘步骤:预处理:噪音、数据的不完整性,方法:采样和选择特定属性来降低数据量降维挖掘:后续:将发现的模式进行评原创 2016-05-05 21:39:42 · 645 阅读 · 0 评论 -
关联规则-web数据挖掘学习2
关联规则ASSOCIATION RULE文本中应用:单词间的并发关系 特点:不考虑序列顺序,而序列挖掘考虑顺序基本概念:一个关联规则是一个如下形式的蕴含关系:x->y,且无交集 支持计数衡量关联规则强度的指标:支持度:如果支持度太小,表明该规则很可能只是偶然发生,覆盖的食物很少无价值。置信度:可预测度,如果置信度太低,表示很难可靠的做出该规则推断。目标找出所原创 2016-05-06 15:40:14 · 1302 阅读 · 0 评论 -
python beautifulsoup 爬虫学习
爬取IMDB上的电影关键词keyword 源HTML文档,参看文档源码# -*- coding: utf-8 -*-import urllib2from bs4 import BeautifulSoupimport unicodedatapage=urllib2.urlopen("http://www.imdb.com/title/tt1619029/keywords?ref_=tt_s原创 2016-12-01 21:03:44 · 532 阅读 · 0 评论