第八章 情报技术
8.2 数据挖掘及文本挖掘技术
数据挖掘(data mining):从大量的数据中提取有用的信息和知识的过程,早期研究从数据库中发现知识(knowledge discovery in database KDD)
8.2.1 数据挖掘的对象与功能
包括:关系数据库、数据仓库、文本、多媒体数据、空间数据(空间关联数据、空间数据聚类、空间数据分析、空间趋势分析、光栅数据库挖掘等)、时序数据(趋势分析、相似性搜索、序列模式挖掘、周期模式挖掘)、web数据(web内容挖掘、web结构挖掘、web日志挖掘)。
功能:
1 概念描述
概念描述分为:特征性描述(目标类数据的一般特征或特性的汇总)和区别性描述(将目标数据的一般特征与对比类数据的一般特征进行比较)。
2 关联分析
发现关联规则——在大量的数据中心所隐含的项集之间的关系以及项集的频繁模式。
关联规则用四个参数进行描述:
可信度、支持度、期望可信度、作用度。
可信度用于衡量关联规则的准确度,支持度用于衡量关联规则的重要性。
关联分析一般分为以下两个过程:
(1)找出所有的频繁项集,根据定义,项集应该满足最小支持度;
(2)产生关联规则,规则必须满足最小支持度和最小可信度。
扩展
链接: link.
https://blog.csdn.net/qq_38927819/article/details/108212492
关联分析百度百科
3 分类
找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。模型如分类规则、决策树、数学公式、神经网络等。
分类方法:线性回归、决策树、贝叶斯分类法、遗传算法、粗糙集、模糊集方法。方法好坏判断:
1)预测精准度
2)计算复杂度
3)模式简洁度
4 聚类
将对象分组为多个类或簇cluster,同簇对象之间高度相似性,不同簇对象差别较大,与分类不同是在不知道划定类的情况下对数据分析,聚类目的根据最大化类内的相似性,最小化类间的相似性,把类似的事物组织在一起。
包括:统计分析法、机器学习法、神经网络方法。
5 偏差检验
部分数据对象与一般行为或模型不一致,这些数据对象就是偏差,也称孤立点。
6 时序演变分析
描述事件或对象行为随时间变化的规律或趋势。
8.2.2 数据挖掘的对象与功能
1 统计分析方法(statistical)
统计分析是通过对总体中的样本数据进行分析,描述和推断能够揭示总体中的内部规律的信息和知识的方法,常用的统计分析方法有:
1)常用统计方法
2)相关分析方法
3)回归分析方法
4)检验假设方法
5)判别分析方法
2 决策树
为做出某个决策而进行的一系列判断过程的树形图,内部节点表示在某个属性上的测试,分支表示一个测试输出,叶节点代表类或类分布。
3 粗糙集方法
3 神经网络方法
3 遗传方法
以上部分内容待补充更详细解释,看不懂啊,文科生年纪大真的脑子轴……
8.2.3 文本挖掘技术
1 文本挖掘基本概念
从大量文本数据中提取以前未知的、有用的、可理解的知识的过程。文本挖掘对象是半结构化或非结构化的文本,与传统信息检索区别:
(1)目的不同:检索-大量文本中找到满足查询请求的信息;挖掘-揭示文本中隐含的信息;
(2)动力不同:检索-明确的查询需求;挖掘-自身驱动,用户无法预知挖掘结果;
(3)关注点不同:检索-字和词;挖掘-内容和结构;
(4)评价方法不同:检索-查全和查准;挖掘-置信度、简洁性、收益。
2 文本特征表示
特征词、向量空间模型是较多表示文本特征的方法。用TFIDF算法来计算特征词的权重是表示一个词在某个文本中出现的频率越高,同时在其他文本中出现的次数越少,则表明该词对于这个文本的区分能力越强,所以其权重就应该越大。
3 文本分类与聚类
分类:自动分配各预定义的类型:基于词典的文本分类、基于训练集的文本分类;
文本聚类:划分聚类法、层次聚类法;
4 主题提取
主题概念产生有三种方式:
(1)两个或以上关键词合成生存主题概念;
(2)规范化处理关键词,找到对应主题词,直接将上位词作为主题概念;
(3)对应主题词在概念层次有若干同义词或谨以此,且这些管家草拟出现在同一文献中,将关键词进行聚类操作以产生类中心,类中心作为主题概念;
计算句子权重的方法来选择主题句:
(1)提取主题词,根据重要程度赋予不同权重;
(2)计算每个句子中包含相关主题词的权值之和;
(3)根据句子位置赋予不同位置权重;如收尾两段、每段首句更高权重,位置权重*主题词权重=句子总权重;
(4)减少长度为主题句提前影响,句子总权重/句子长度=最终句子权重;
(5)句子权重排序,排序靠前且通过预先设定阈值即为文献主题句。
8.3 大数据及其处理技术
8.3.1 大数据的概念与特征
4v特性
(1)大规模(volume):MB-GB-TB-PB-EB天猫订单、双十一;
(2)多样性(variety):数据来源广泛,类型多样,答题可分为:结构化数据(二维逻辑表)、非结构化数据(文本文件、图像等)、半结构化数据(数据内容和结构在一起,如xml文件)
(3)高速性(velocity):传输速度、响应时间、更新;
(4)低价值性(value):
8.3.2 大数据分析
1、从样本分析-总体分析
样本分析依赖采样随机性、样本中包含大部分所需信息,用最小的信息得到最多的数据——收集全面而准确的信息
2、从精确分析-近似分析
拥有大数据所带来的利益远远超过增加一点精确性,大数据基础上的简单算法比小数据基础上的复杂算法更加有效。
3、从因果分析-相关分析
为什么-是什么
8.3.3 大数据处理技术与工具
1、mapreduce
链接: link.
https://blog.csdn.net/zhinengxuexi/article/details/83351705
2、hadoop
8.4 情报支持技术
8.4.1 多媒体技术
媒体五大类:感觉媒体(图形、语音等)、表示媒体(图形编码、声音编码)、显示媒体(表达用户信息的物理设备)、存储媒体(存储数据的物理设备)、传输媒体(传输媒体的物理设备,如网络)
关键技术:
数据压缩技术、多媒体交互技术、多媒体信息检索技术、大容量存储技术。
8.4.2 信息安全技术
反病毒技术、防火墙技术、加密技术、数字水印技术
第九章 用户行为与情报服务
9.1 以用户为中心的情报服务
9.2 用户信息需求与行为模型
信息需求层次:本能需求、意识需求、正式需求、这种需求
1、方法论模型