信息管理导论川大667 | 第一章核心知识点

第一章 | 信息管理导论系列

1. 信息与信息资源

1.1 信息与社会信息

1.1.1. DIKW

数据:Data
信息:Information
知识:Knowledge
智慧:Wisdom

DIKW由**数据(Data)、信息(Information)、知识(Knowledge)、智慧(Wisdom)**按照关联转化层次组成的转化机制。

以气象站为例,DIKW模型可以进行如下理解:

  1. 数据(Data)层次:城市当中有许多的气象数据收集点,主要收集每小时降雨量、风速、气温、湿度等各种数据(Data)
  2. 信息(Information)层次:将城市中许多个气象点所收集的数据进行汇总,可以得知城市内不同时间段下不同区域有不同的气象,即信息(Information)
  3. 知识(Knowledge)层次:在信息(Information)的基础上,通过对城市的历史气象数据进行分析,可以预测未来的天气,而不仅仅是报告现在的天气状况,这就叫做知识(Knowledge)
  4. 智慧(Wisdom)层次:在知识(Knowledge)的基础上,通过对城市的历史气象数据的趋势和关系,气象台可以提供警告和建议,在即将到来的气象灾害发生前采取适当的措施,以保护重要基础设施和人员安全,这就是智慧(Wisdom),同时智慧往往是跨领域的,而非局限于某一特定知识领域。

1.1.2. 白色信息、黑色信息与灰色信息

无限制
例如
严格控制
例如
特定渠道
例如
转化
转化
转化
转化
信息的类型
白色信息
上市公司财务报告
黑色信息
军事机密
灰色信息
研究报告
  • 白色信息:传递和利用范围几乎没有任何限制的信息

    举例:例如上市公司的企业财务报告等

  • 黑色信息:传递和利用范围较小的内部信息和严格控制传递范围的秘密信息

    举例:军事机密

  • 灰色信息:指没有公开的、潜在的信息,或需要通过一些合法的、特定的渠道才能获得的信息,有传播渠道特殊性,载体形式多样,参考价值独特,内容不稳定和可获取性差等特征。

    举例:研究报告

1.1.3. 零次信息、一次信息、二次信息与三次信息

未加工
初步加工
加工整理
高层次组织
核心
举例
实地
核心
举例
了解
再加工
举例
例如
举例
提供基础
提供基础
提供基础
信息的层次
零次信息
一次信息
二次信息
三次信息
零散和不系统
第一次去某学校
教学楼或食堂
第一手资料
新闻报道
大概位置和语言
一手资料
引用研究报告的数据或结论
分析综合多层次信息
撰写综述论文
  • 零次信息:未经加工、零散的、不系统的、原始的信息(没有任何先前信息基础的信息,通常需要通过实地观察和研究来获得)

    举例:比如你第一次去四川大学,通过实地观察和亲身体验才知道学校的方位、各个教学楼、食堂等信息,这就是零次信息

  • 一次信息:根据第一手资料创造、形成的初加工信息 (通过某种渠道获取到的初步信息,可能真实也可能片面)

    举例:当你第一次听到某个国家的名字时,你可能只知道该国的大概位置和语言,这是一次信息。

  • 二次信息:在一次信息基础上加工整理形成的引导和使用一次信息的信息

    举例:当你在写一篇论文时,你可能会引用一篇关于其他机构或国家的研究报告中的数据或结论,这就是二次信息。

  • 三次信息:根据二次信息提供的途径获取并使用一次信息结合其他零次信息分析综合形成的高层次组织信息

    举例:当你对某个研究主题进行深入研究时,你可能会通过多个渠道的引用和使用,获得该主题的论文、专利、会议、科学报告等多个方面的信息,这就是三次信息。

1.1.4. 信息资源的社会功能

促进
支持
影响
确保
例如
例如
带来
通过
例如
提升
需要
构建
实现
维护
通过
指导
利用
监控
使用
调整
通过
继承
利用
信息资源的社会功能
个人
组织
社会
行为有效
技术窍门
网上的通马桶视频教程
充实活力
电子书阅览服务
成都图书馆
个人能力
终身学习
系统性的知识结构
科学决策
稳定运行
市民之家等
成员行动
AI大数据等
发展环境
舆情监控
组成结构
新闻社交媒体
社会遗产
AI技术对古籍进行处理

个人:

  • 确保行为有效。确切地说就是信息资源能够给个人提供技术窍门,如网上的通马桶视频教程

  • 带来充实活力。不少图书馆都开通了电子书阅览服务,如成都图书馆,通过此项服务读者可以在线上阅览相关文献,让精神食粮触手可及,丰富个人的生活,带来活力

  • 提升个人能力。在如今社会中,终身学习是必不可少的,有益的信息资源可以帮助我们建立系统性的知识结构,或进一步提升在某领域上的造诣

组织:

  • 实现科学决策。对信息进行组织、分析后可供组织参考决策

  • 维护稳定运行。参考现在各级政府推行的【市民之家、一网通办】,可以一定程度上提升办事效率

  • 指导成员行动。例如现如今的AI、大数据、VR等技术,可以快速从人群中锁定犯罪嫌疑人,对警员进行提前预警

社会:

  • 监控发展环境。如政府部门、媒体和企业可以通过微博、抖音等平台了解公众对政策、事件和产品的看法和反应,以此为依据进行调整和改进。

  • 调整组成结构。例如新闻、社交媒体和其他媒体。控制和传播资讯资源的机构和个人可以塑造公众舆论和思想观念,影响政治和文化方面的决策和趋势。

  • 继承社会遗产。如保存古籍,利用AI技术对少数民族古籍文字进行扫描、识别、翻译等

1.1.5. 信息的特征

普遍存在
例如
识别和计量
包括
例如
包括
例如
存储和转换
包括
例如
包括
例如
传递和中立
包括
例如
包括
例如
信息的特征01
广泛性和普遍性
蜜蜂与信息的实验
可识别性和计量性
可识别性
通过感官或检测仪器识别信息
计量性
产品销售量等量化分析
可存储性和转换性
可存储性
光盘
转换性
文字到图片
传递性和相对中立性
传递性
新闻通过报纸和APP推送
相对中立性
信息内涵未因载体或语言改变
  1. 广泛性和普遍性:

信息无处不在,无处不有

例如:蜜蜂与信息的实验

  1. 可识别性和计量性:

可识别性:人可以通过感官或检测仪器来识别信息

计量性:通过信息计量分析方法对信息进行量化研究,揭示内在规律和特征

例如,一个产品的销售量、市场占有率、用户满意度等都可以通过数据进行量化分析。

  1. 可存储性和转换性:

可存储性:信息可通过体外载体(光盘、纸张等)和体内载体(人脑)进行存储

转换性:信息可从一种状态(形式)转换为另外一种状态(形式)

例如,照片、文档等可以被存储在计算机硬盘或云端,也可以被转换成其他格式的文件。

  1. 传递性和相对中立性:

传递性:信息的可存储性使得信息的传递是可行的(特定载体、人)

相对中立性:信息内涵不会由于存储载体、表达语言、创造或发现者的转换而存在大的质的差异

例如,一则新闻消息 ,既可以在报纸上刊登发表,也可以通过APP客户端推送,但其信息内涵并未发生改变

  1. 可处理性和再生性:

可处理性:可以利用技术手段对信息进行加工处理

再生性:在信息活动生命周期中,信息可以通过特定的途径和方式再生

例如:一段录音可以被剪辑、加工,或者被再生成其他形式的音频文件。

  1. 共享性和可开发性:

共享性:在信息的交换过程中,信息持有者不仅不会丧失信息,反而会由于信息反馈而获取一些新信息

可开发性:人们可以根据自己的需要有针对性地加工和处理信息

  1. 价值相对性和绝对性:

价值相对性:对于不同的具体信息接收者,某一信息具有不同的价值(受认知水平、文化教育、家庭等的影响)

绝对性:对于社会来说,某一信息具有同一价值的绝对性

例如,一份关于投资股票的研究报告。对于一位金融专家或激进的投资者来说,这个报告可能具有很高的价值,因为它提供了关于市场趋势、公司财务状况等方面的深入分析,对他们的投资决策有直接影响。然而,对于一位普通的工薪族来说,这个报告可能并不具有相同的重要性,因为他们对投资不感兴趣或没有相关知识。

  1. 不完全性和不对称性:

例如,在一次交易中,卖方可能会隐瞒一些关键信息,导致买方无法做出正确的决策,从而使得交易结果出现不对称性。

  1. 时效性和滞后性:

时效性:如天气预报

滞后性:文献半衰期(学术文献或科技文献的信息价值逐渐减半所需要的时间)

  1. 有机性和差异性:

有机性:信息的组成要素,如语词和段落、原因和结果等都能构成一个有机的整体,若改变任意部分,信息的原有含义可能会随着而改变

差异性:不同信息要素的结合形成了信息实体的差异性,如果改变文章中的某个信息要素,如改变某个关键词的选择或重新组织段落的顺序,那么信息的原有含义可能会发生变化

处理和再生
包括
例如
包括
例如
共享和开发
包括
例如
包括
例如
价值和相对
包括
例如
包括
例如
不完全和不对称
例如
时效和滞后
包括
例如
包括
例如
有机和差异
包括
例如
包括
例如
信息的特征02
可处理性和再生性
可处理性
技术手段加工处理信息
再生性
音视频剪辑加工
共享性和可开发性
共享性
信息交换过程中的反馈
可开发性
根据需要加工处理信息
价值相对性和绝对性
价值相对性
投资报告对不同接收者的不同价值
价值绝对性
对社会同一价值的绝对性
不完全性和不对称性
卖方隐瞒信息导致交易不对称
时效性和滞后性
时效性
天气预报
滞后性
文献半衰期
有机性和差异性
有机性
信息要素组成有机整体
差异性
改变关键词或段落顺序

1.2.信息资源

1.2.1.信息资源、信息资本、信息资产

信息集合
获取途径
价值增量
例如
货币核算
例如
利用
表现
基础
三种概念关系
信息资源
图书馆
信息资本
大数据广告投放
信息资产
商标
  • 信息资源:是指人类社会信息活动中积累起来的以信息为核心的各类信息活动要素的集合。

    举个例子,假设你正在毕业论文,你需要收集一些关于你论文主题的资料和数据,这些资料和数据就是信息资源。你可以通过图书馆、学术数据库、互联网等多种渠道获取这些资源,然后进行筛选、整理、分析,最终生成你的论文。

  • 信息资本:直接或间接获得价值增量或经济收益的信息资源

    举个例子,一个互联网公司可以利用大量用户数据和专业知识,开发出高效的广告投放系统,为客户提供定制化的营销服务,从而创造出巨大的商业价值

  • 信息资产:是信息资本的表现形式,是可以用货币形式核算和可以用价值计量的信息储备。

    举例:一家互联网公司拥有大量的用户数据、软件代码、商业机密等信息,这些都是公司的信息资产

三者的关系:信息资本是建立在信息资源之上的,通过对信息资源的开发、利用和创新,创造出经济价值和社会价值。信息资产则是信息资源的一种具体表现形式,包括了信息资源本身和对其的管理和保护。因此,信息资产可以作为信息资本的一种重要来源和基础。

1.2.2.信息财富观

结合
无形主导
转化
部分替代
开发
促进
扩大
有效
信息财富观
信息资源
非资源
其他资源
产品和服务
资源分配
经济增值
发展策略
  • 信息财富观是以有形财富与无形财富相结合、无形财富越来越占主导地位为特征的财富观 。人们可以运用信息资源使非资源转化为资源,运用信息资源部分替代其他资源,运用信息资源开发信息产品和服务,运用信息资源促进资源合理分配,运用信息资源扩大经济增值空间,运用信息资源制定有效的发展策略。

    举例:许多社交媒体公司通过用户数据和内容,为企业提供精准的广告投放和市场营销服务,从而产生巨大的商业价值

1.2.3.信息资源三角形

机构/个人
来源
技术
例如
例如
例如
信息资源三角形
信息服务
信息源
信息系统
图书馆
书籍
搜索引擎
  1. 信息服务:指提供信息服务的机构或个体,包括图书馆、档案馆、数据库服务商、搜索引擎等。信息服务的目的是为用户提供各种形式的信息资源,满足用户的信息需求。
  2. 信息源:指信息资源的来源或提供者,包括书籍、期刊、报纸、电子文献、数据集等。信息源是信息服务提供者的资源库,也是用户获取信息的渠道。
  3. 信息系统:指用于管理和传递信息资源的技术系统,包括数字图书馆、电子商务平台、搜索引擎、知识管理系统等。信息系统为信息服务和信息源提供了技术支持,也使得信息资源的管理和传递更加高效和便捷。

比如当用户需要获取某个领域的专业知识时,他可以通过图书馆的信息服务来获取相关的图书、期刊和数据库,这些资源就是信息源。同时,数字图书馆作为信息系统,为用户提供了在线检索、借阅和阅读的服务,使得用户可以更加便捷地获取信息。另外,一些商业数据库服务商也可以提供类似的服务,例如EBSCO、ProQuest等。这些服务商提供的信息资源可以通过他们的信息系统进行检索和访问。

1.2.4.信息资源链

事实
数据
信息
知识
智慧

信息资源链由事实、数据、信息、知识、智慧构成的链式结构 。

  1. 事实:指实际存在的事物或事件,是信息资源链的最基础层次。

    比如,某天气温为28度、某商品销售量为100件等。

  2. 数据:对事实进行收集、记录和处理后得到的结果。数据是信息资源链中的第二个层次,是信息资源链的基础。

    比如,记录某一时刻的气温、商品销售数据等。

  3. 信息:对数据进行加工和分析后得到的有用信息,是数据的高级形式。信息是信息资源链中的第三个层次,是信息资源链中的核心。

    比如,根据历史数据预测未来的气温、分析商品销售数据找出最畅销的商品等。

  4. 知识:基于信息的理解和应用,形成的知识体系。知识是信息资源链中的第四个层次,是信息的高级形式。

    比如,基于气象学知识和历史数据预测未来气温趋势、基于市场营销知识分析商品销售数据并制定相应的营销策略等。

  5. 智慧:基于知识的应用和创新,形成的高级智慧和洞见。智慧是信息资源链中的最高层次,是信息资源链的终极目标。

    比如,基于研究气候变化趋势提出相应的环保建议、基于市场营销知识创新性地开发新产品等。

1.2.5.生产率悖论

信息技术的巨额投资并没有带来生产率的增长,而是使生产率的增长停滞不前或下降。

在过去几十年中,医疗技术取得了长足的进步,如数字化医疗记录、医疗机器人、人工智能辅助诊断等,这些技术使医疗保健变得更加精确和高效。然而,医疗保健成本却在不断攀升,医疗资源的分配也存在严重的不均衡问题,而这些问题限制了整个医疗保健系统的生产率提高。

1.2.6.信息资源的构成要素

  • 信息生产者是信息资源的元资源,是信息资源的基础,信息生产者也可以是信息的消费者,在信息消费链中信息用户角色可转化。

    个人、企事业单位、政府部门等

  • 信息是信息资源的本资源,是信息资源的核心

    包括事实、数据、文献、知识和经验等内容

  • 信息技术是信息资源的表资源,是为信息的开发利用而产生的,是信息资源的延伸,是加工处理和传递有用信息的各种技术的集合

    包括计算机技术、网络技术、数据库技术等

信息生产者在利用信息技术的同时,也需要依赖信息内容的支撑;信息技术的应用也需要依托于信息生产者对信息内容的理解和运用;而信息内容的使用和创新,则需要有信息技术的支持。只有这三个要素有机地结合起来,才能够构建出优质的信息资源,推动社会经济的发展。

核心
属于
基础
属于
延伸
属于
信息资源
信息
本资源
信息生产者
元资源
信息技术
表资源

1.2.7.一般经济学特征和特殊性

一般经济学特征
特殊性
非绝对竞争
原子性
不同
利用
取代
导致
时间
渗透
需求性
非信息投入要素
共性
稀缺性
可选择性
相对共享性
特殊性
不可分割性
不可替代性
有效配置性

(一)一般经济学特征(共性):

  1. 需求性:信息不仅本身就是一种重要的生产要素,可以取代(或部分取代)物质原料等非信息投入要素,而且可以通过与这些非信息要素的相互作用,使之增值。
  2. 稀缺性:信息资源的稀缺并非空间形式的稀缺,更多的是一种时间形式上的稀缺
  3. 可选择性:由于信息资源具有极强的渗透性,所以同一信息资源可以作用于不同的对象,并产生不同的效果。经济活动者可以根据这些不同对象所产生的不同效果对信息资源的使用领域进行选择。

(二)特殊型(个性):

  1. 相对共享性:不同利用者对信息资源的利用不存在绝对的竞争关系,可以同等程度地共享某一信息资源。

    比如我这篇笔记,考图书馆学的同学可以看,考档案学和情报学的同学也可以看。

  2. 不可分割性:信息资源在生产过程和使用过程中具有不可分割性。实现其使用价值,信息资源集合是必要的

    信息资源具有原子性

  3. 不可替代性:不同种资源的信息必定是完全不同的。

    文字信息代替不了视频信息,反之亦然

  4. 有效配置性:信息资源具有开发和驾驭其他资源的能力。

    信息资源可以利用其他资源,如教育资源、医疗资源

1.3.信息的度量

1.3.1.比特、字节和字

  • 计算机存储装置的最小存储单位为一个二进制数,称为bit(比特)
  • 8位二进制数称为字节
  • 计算机数据处理时一次存取、加工和传送的数据长度为字
  • TB(太字节)、PB(拍字节)、EB(艾字节)、ZB(泽字节)、YB(尧字节),转换进制为1:1024

1.3.2.先验信息、后验信息和实得信息

  1. 先验信息:信宿在接收到信源所发出的信息之前事先了解到的关于随机事件的不确定性;

    在进行一项医学研究时,研究人员可以先查阅相关文献,掌握相关疾病的发病率、临床症状、治疗方案等信息。这些信息可以帮助研究人员更好地选择研究对象,设计研究方案,并确定数据分析中的先验分布。

  2. 后验信息:信宿在接收到信源所发出的信息之后所产生的关于随机事件的不确定性;

    例如,在进行一项销售预测时,研究人员可以通过对历史销售数据进行分析,得出产品销售趋势、季节性变化等后验信息,以此为基础进行销售预测。

  3. 实得信息:信宿在信息输入过程中消除了的不确定性,以及认识主体在认识过程中所获得的信息量

    例如,在进行一项市场调查时,研究人员通过问卷调查收集到了大量消费者的意见和偏好,这些数据就是实得信息。

    之前消除
    之后消除
    过程中消除
    信源
    确定性
    先验信息
    后验信息
    实得信息

1.3.3.引文分析方法

引文统计
揭示
揭示
应用
例如
例如
例如
共同引用
表明
被共同引用
表明
引用
引文分析方法
可计量单元
数量特征
内在规律
引文索引数据库
Web of Science核心合集
Scopus
CSSCI
引文耦合
关系密切
同被引
自己
  1. 引文分析法:即以引文统计数据为基础对信息可计量单元之间的引用和被引用现象进行分析研究,从而揭示其数量特征和内在规律

    引文分析法通常使用引文索引数据库进行分析,例如Web of Science核心合集、Scopus、CSSCI等。如果一个研究者想要了解某个领域内的学术热点和研究趋势,他可以使用引文索引数据库来检索与该领域相关的文献,并分析这些文献的引用情况和引用频率,以确定哪些研究成果受到了广泛的关注和认可,哪些研究者在该领域内拥有重要的学术地位,以及哪些主题或问题是当前研究的热点和关注重点。

  2. 引文耦合(Bibliographic Coupling),是指若两个文本同时引用一篇或多篇相同文本,则这两个文本即具有引文耦合关系。他们引用的相同文本的数量越多,则耦合强度越大,表明两个文本的关系越密切。若文献A和文献B引证了相同的参考文献,则他们之间构成耦合关系,他们所包含相同参考文献的个数称为耦合强度(静态关系)。

引用
引用
引用
引用
文献A
文献C
文献D
文献B
  1. 同被引(Co-citation),又称共被引,是指两个文本同时被一个或多个相同文本引用,则这两个文本即具有同被引关系。同时被引用的相同文本的数量即同被引强度,同被引强度越高,两个文本的关系越密切。**假设文献C都引用了文献A和文献B,那么文献A和文献B之间就存在同被引关系。同被引强度由文献A和文献B被共同引用的文献数量决定。**文献的共被引关系会随时间的变化而变化,通过文献共被引网络研究可以探究某一学科的发展和演进动态(动态关系)。
引用
引用
文献C
文献A
文献B
  1. 自引:文本责任者引用自己负有责任的文本或与他人合作的文本。

1.3.4.信息采全率、采准率

包括
系统内外
包括
系统内
信息检索指标
信息采全率
比例
信息采准率
比例
  • 信息采全率(Recall):指对某一信息系统全体用户而言,该信息系统所含的满足用户需要的信息在当时该系统内外所有满足用户需要信息中所占的比例

假设某电商平台上经检索有4个产品与你的需求相匹配。与此同时,你通过其他渠道,如实体店或其他平台,发现还有6个与你需求相匹配的产品。在这种情况下,信息采全率可以是满足你需求的产品数量(4个产品),与系统内外所有满足你需求的产品数量(4个产品+6个产品)之间的比例,那么信息采全率就是40%。

  • 信息采准率(Precision)指对某一信息系统全体用户而言,该信息系统所含的满足用户需要的信息在该系统所有信息中所占的比例

    假设某电商平台上检索某产品,发现检索结果有100条,但是其中只有10条符合需求,则信息采准率为10%

1.3.5.信息计量学

理论基础
描述
分析
揭示
信息计量学
应用数学方法
信息过程
计量单元
信息规律
学科

信息计量方法的理论基础是应用数学方法研究,描述信息过程、现象与规律的一门学科,对信息活动中的一切可计量单元进行科学分析并揭示其规律。

1.3.6.布鲁克斯基本方程式

布鲁克斯基本方程式表述了信息的价值与人的知识结构或信息结构的相关性和发展变化。

1.3.7.沃尔肯斯泰因公式

沃尔肯斯泰因公式是信息对于信息用户使用价值的计算公式

1.3.8.文献计量学三大定律

布拉德福定律(Bradford's Law):它描述了科学文献数量与科学期刊数量关系。根据布拉德福定律,对于某一特定主题,文献可分为若干个核心区、第一扩展区和第二扩展区,每个区的文献数量依次递减,而且核心区的文献数量远小于扩展区的文献数量。

  • 布拉德福定律表达式:从核心期刊区到相关期刊区到边缘期刊区,为 1 : n : n 2 1:n:n^2 1:n:n2
  • 假定有一个学科,它的核心期刊有5种期刊,这5种期刊每年登载的论文数是300篇,当我们在该学科的第二个期刊区里找到300篇相关论文的时候,这些论文大致分散在50份期刊上面,根据布拉德福定律可知,还有300篇该学科的相关论文将分散在大约250份期刊上面
  • 应用价值:如信息服务机构在财力有限的情况下,可以优先选择用于购置其服务领域的核心期刊数据库
描述
描述
数量少
数量多
数量多
优先
关系
布拉德福定律
文献数量
期刊数量
核心区
第一扩展区
第二扩展区
核心期刊

洛特卡定律(Lotka's Law):它描述了著者与文献数量的关系。根据洛特卡定律,任何一组作者的作品数量与其产出一定量作品的作者人数成反比。也就是说,少数作者产出了大部分的文献,而大多数作者只产出很少的文献

  • 洛特卡定律公式: f ( n ) = c n 2 f(n) = \dfrac{c}{n^2} f(n)=n2c
  • 大多数科学家的科研产出率比较低,只有少数科学家产量较高
  • 假如,一个学科领域在特定时间内共有600位科学家贡献了一份成果,已知该领域科研生产率分布的参数与化学和物理学领域接近,则可以推知:该领域贡献了两份成果的科学家数量就是: 1 4 × 600 = 150 \dfrac{1}{4} \times 600 = 150 41×600=150;贡献三份成果的科学家数量就是: 1 9 × 600 ≈ 67 \dfrac{1}{9} \times 600 \approx 67 91×60067……
  • 应用价值:如快速进行学科领域扫描,帮助年轻科学家确立本领域的领先科学家
描述
描述
反比
特点
低产
高产
示例
总数
一份成果
两份成果
三份成果
应用
发现
洛特卡定律
著者数量
文献数量
少数多产
大多数科学家
少数科学家
学科领域
600位科学家
600
150
67
领域扫描
核心科学家

齐夫定律(Zipf's Law):它揭示了文献中词汇的分布规律。在文献计量学中,齐夫定律描述了某个单词在文献中出现的频率与该单词在所有单词中的排名成反比。也就是说,频率最高的单词在排名上位居前列(即排名数值较小),频率较低的单词在排名上位于后面(即排名数值较大)。

  • 齐夫定律公式: f r = c fr = c fr=c(其中 c c c为给定情境下的一个参数)
  • 假设我们有一个小型语料库,其中有 10,000 个单词。排名第一的单词(比如 “the”)出现的频率是 1000 次,排名第二的单词(比如 “of”)出现的频率是 500 次,排名第三的单词(比如 “and”)出现的频率是 333 次。根据齐普夫定律:
    • 第1位的单词出现频率大约是 1000 次。
    • 第2位的单词出现频率大约是 1000/2 = 500次。
    • 第3位的单词出现频率大约是 1000/3 ≈ 333次。
  • 应用价值:齐夫定律表明,人们在从事交流活动时,倾向于使用人类语言中很小的部分来完成交流目的(即最省力法则);叶鹰在《情报学基础教程》一书中认为,在特定学科领域中,频率过高和过低的词都不适合收入主题词表,用于信息组织整理,从编制信息组织整理所用词表的角度看,各学科都应选用本领域词频适中的词语。
描述
反比
应用
倾向
应用
选择
齐夫定律
词汇频率
排名
交流活动
使用高频词
词表编制
适中词频
  • 17
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

是希望

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值