Mark—零散知识汇总

乐享图情

已于 2022-03-06 23:24:29 修改

阅读量780

点赞数

分类专栏：零散知识情报学知识笔记文章标签： python 开发语言后端

于 2020-11-18 22:10:44 首次发布

本文链接：https://blog.csdn.net/qq_38927819/article/details/108212492

版权

零散知识同时被 2 个专栏收录

5 篇文章 1 订阅

订阅专栏

情报学知识笔记

5 篇文章 4 订阅

订阅专栏

文章目录

1、监督学习和非监督学习差别
2、关联分析
3、定性研究方法

1、监督学习和非监督学习差别

1、两个基本概念
1）特征值：每个样本都有一些“属性”或“特征”，特征所具有的具体指称为特征值；如苹果表皮是光滑的，橘子是褶皱等外在特征；
2）目标值：标签，该样本数据所属的目标或类型；如光滑且球形一些列特征所描述的目标就是“苹果”；
监督学习和非监督学习的差别之一就在于：有没有目标值的差别，另一个区别：学习过程有没有人工干预；
2、监督学习
举例：逐步认识某事物时，父母给一些目标值，并告诉某目标是什么样的，有什么特征；目标多次介绍，孩子就知道两者的区别了；如果孩子识别目标值时，给出了错误判断，父母会指出错误（人工干预），在经过学习，孩子就能立即给出正确的判断。
理解：从给定的训练数据集中“学习”出一个函数，当新的数据到来时，可以根据这个数据的预测结果，监督学习的训练集要求包括输入和输出，即特征和目标。训练集中的目标是由人类事先标注的。
主要用途：分类（classify）和回归（regression）
常见算法：k-近邻算法、决策树与随机森林、逻辑回归、神经网络、朴素贝叶斯、logistic回归、支持向量集、adboost算法、线性回归、局部加权线性回归、收缩和树回归等。
3、非监督学习
举例：孩子在认识事物指出，父母给他们一些苹果和橘子，但并不告诉他们目标值，让他们根据事物特征自行判断，把苹果橘子分到不同组中，下次再给一个苹果会分到苹果组中，而不是橘子组中。（疑问：不会存在错误吗？）
理解：学习过程中，只提供事物的具体特征（特征值），不提供事物的目标值，让学习者自己总结归纳，因此，非监督学习又称为归纳性学习（clustering），指将数据集合分成由类似的对象组成的多个cluster或组的过程。在机器学习过程中，只提供特征值，使用这些数据，通过算法让机器学习，进行自我归纳，达到同组内事物特征值非常接近，不同组的事物特征相距很远的目的。
主要用途：聚类等
常见算法：k-means、apriori、FP-Grwoth等。

2、关联分析

在这里插入图片描述
买尿片的通常也会买啤酒，就是典型的关联分析

基本概念
事务库
用TID表示用户购买行为的编号，items表示用户购买了哪些商品，多条记录的多个商品信息就是一个事物库。
事务
事务库中的每一条记录都被称为一笔事务。
项集
包含0个或者多个项的集合称为项集。在购物蓝事务中，每一样商品就是一个项，一次购买行为包含了多个项，把其中的项组合起来就构成了项集。
支持度计数
项集在事务中出现的次数。例如，｛Bread，Milk｝这个项集在事务库中一共出现了3次，那么它的支持度计数就是3。
支持度
包含项集的事务在所有事务中所占的比例：，这里N是所有事务的数量。上面的例子中我们得到了{Bread，Milk}这个项集的支持度计数是3，事物库中一共有5条事务，那么{Bread，Milk}这个项集的支持度就是3/5.
频繁项集
如果我们对项目集的支持度设定一个最小阈值，那么所有支持度大于这个阈值的项集就是频繁项集。
关联规则
关联规则其实是两个项集之间的蕴涵表达式。如果我们有两个不相交的项集X和Y，就可以有规则X→Y, 例如｛Bread，Milk｝→{Diaper}。项集和项集之间组合可以产生很多规则，但不是每个规则都是有用的，我们需要一些限定条件来帮助我们找到强度高的规则。
支持度(s)
关联规则的支持度定义为：也就是同时包含X和Y这两个项集的事务占所有事务的比例。我们看｛Bread，Milk｝→{Diaper}这个例子，同时包含｛Bread，Milk，Diaper}这个项集的事务一共有2项，因此这个规则的支持度是2/5。
置信度©
关联规则的置信度定义为：这个定义确定的是Y在包含X的事务中出现的频繁程度。还是看｛Bread，Milk｝→{Diaper}这个例子，包含｛Bread，Milk｝项的事务出现了2次，包含｛Bread，Milk，Diaper}的事务也出现了2次，那么这个规则的置信度就是1。（为什么第一个不是3？）
3.1 关联规则算法
找出所有的规则，对每一个规则计算支持度和置信度，然后再从中提取符合条件的规则。
目前关联规则的挖掘过程大致可以总结为两步：
1）找出所有频繁项集
2）由频繁项集产生规则，从中提取置信度高的规则
3.2 Apriori算法
它开创性的使用了基于支持度的剪枝技术来控制候选项集的指数级增长。Apriori算法用到的核心原理用到的两个重要性质：
1）如果一个项集是频繁的，那么它的所有子集都是频繁的。
2）如果一个项集是非频繁的，那么它的所有超集都是非平凡的。
这个原理很好理解，如果{Milk}出现了3次，{Milk,Beer}一起出现的次数一定小于3次。所以如果一个项集的支持度小于最小支持度这个阈值了，那么它的超集的支持度一定也小于这个阈值，就不用再考虑了。
下面简单描述购物蓝事物库例子中，所有频繁项集是如何通过Apriori算法找出的：
首先，我们限定最小支持度计数为3。遍历长度为1的项集，发现{Coke}和｛Eggs｝不满足最小支持度计数，将它们除去。
用剩余4个长度为1的频繁项集产生＝6个长度为2的候选集。再次基础上重新计算支持度计数，发现{Bread, Milk}和{Milk, Beer}这两个项集是非频繁，将它们除去之后再产生长度为3的候选集。
这里需要注意的是不需要再产生{Milk, Beer, Diaper}这个候选集了，因为它的其中一个子集{Milk, Beer}是非频繁的，根据先验原理这个项集本身一定是非频繁的。
优缺点评价:
Apriori算法的优点是可以产生相对较小的候选集，而它的缺点是要重复扫描数据库，且扫描的次数由最大频繁项目集中项目数决定，因此Apriori适用于最大频繁项目集相对较小的数据集中。
在上述的Apriori算法中我们已经知道了这个算法需要不断的进行从频繁项集中产生候选集的过程。首先找到中包含的事务的所有元素，然后在产生长度的候选集。这个过程效率是很低的，为了提高找出所有候选集的效率就要用到哈希树了。
3.3 FP-tree算法
FP-tree算法在过程中没有像Apriori一样产生候选集，而是采用了更为紧凑的数据结构组织tree, 再直接从这个结构中提取频繁项集。FP-tree算法的过程为：
首先对事务中的每个项计算支持度，丢弃其中非频繁的项，每个项的支持度进行倒序排序。同时对每一条事务中的项也按照倒序进行排序。
根据每条事务中事务项的新顺序，依此插入到一棵以Null为根节点的树中。同时记录下每个事务项的支持度。这个过程完成之后，我们就得到了棵FP-tree树结构。
对构建完成的FP-tree，从树结构的上方到下方对每个项，将先前的路径转化为条件FP-tree。
根据每棵条件FP-tree，找出所有频繁项集。
示例：
例如，对T100这个事务，原来是无序的Ⅰ1, Ⅰ2, Ⅰ5, 但因为Ⅰ2的支持度按照倒序排列在Ⅰ1之前，因此重新排序之后的顺序为Ⅰ2,Ⅰ1,Ⅰ5。经过重新排序后的事务的项集如下表中的第三列所示。
在这里插入图片描述

关联模式评价
参考原文：
链接: link.

3、定性研究方法

理论视角/立场
诠释主义
构建主义
符号互动论
存在主义
方法论
扎根理论
现象学
民族志
行动研究
资料收集方法
访谈法
焦点小组
观察法
文档资料
视角影响资料
资料分析方法
现象学分析
（1）Colaizzi资料分析方法
（2）Giorgi资料分析方法
（3）Smith解释现象学分析方法
扎根理论分析
内容分析法
主题分析法

扎根理论（定性）

研究问题：研究者在研究开始之前一般没有理论假设，直接从实际观察入手，从原始资料中归纳出经验概括，然后上升到系统的理论，解释问题，常见的有影响因素分析类问题。
前提条件：是一种自下往上建立实质理论的方法，扎根理论一定要有经验证据的支持，但他的主要特定不是在其经验性，而在于它从经验事实中抽象出了新的概念和思想。
基本流程：
选题–>收集资料–>资料分析–>归纳综合–>构建理论–>撰写草稿–>反思研究过程–>选题
优势：严谨、系统的研究程序；持续比较。
局限性：过于强调基于经验；编码的过程容易导致资料的过度切割与零碎化；在实际操作中有一定困难。
软件工具：NVIVO（编码工具）

复杂网络分析/社会网络分析（定量）

适用问题：
（1）复杂网络分析是指一种呈现高度复杂性的网络，适用于研究各类复杂系统的结构问题、关系问题、效率问题等。在现实生活中，许多复杂系统都可以建模成一种复杂网络进行分析，比如常见的电力网络、航空网络、交通网络、计算机网络以及社交网络等。
（2）社会网络分析适用于社会关系所构成的复杂网络研究，是社会学研究方法，之前社会科学往往关注个体的特性，而忽略个体之间的关系。而社会网络的研究证实研究关系的方法、视角。最大的特征在于考虑个体之间的相互依赖，更接近于现实社会。
前提条件：
（1）研究对象呈现网络特征，能够抽象出节点和连边；
（2）节点即网络中存在多类主体；
（3）连边即网络中各主体之间存在一定的连接关系。
基本流程：
（1）从现实世界的复杂系统中抽象出节点、连边构建复杂网络；
（2）指标分析；
（3）对指标分析结果进行讨论，得出结论。
常用测度指标：
度：该节点连接的其他节点的数目；
平均路径长度：网络中节点之间的分离程度和网络的全局特性；
聚集系数：同一个节点的两个相邻节点仍然是相邻节点的概率；
介数：所有最短路径中经过该节点或边的数量比例。介数反映了相应的节点或边在整个网络中的作用和影响力，具有很强的现实意义。
中心性：度中心性、介数中心性、紧密中心性、特征向量中心性。
软件工具：
networkx、igraph、pajeck、gephi、ucinet

结构方程模型

结构方程模型是基于变量的协方差矩阵来分析变量之间关系的一种统计方法，因此也称为协方差结构分析。
结构方程模型师一般线性模型的拓展，包括因子模型与结构模型，是传统路径分析与因子分析的完美结合。
相关概念：
潜在变量、观测变量、自变量、因变量、中介变量、残差项。
软件工具：
mplus、amous、lisrel、eqs、r