text mining week2

一、组合关系探索 熵函数
这里写图片描述

  1. 确定x随机性的熵函数 coin tossing抛硬币
    熵在这里是表示一个事件发生的概率的离散程度,因为the在很多文档中的出现频率都非常高,所以它的熵会比一些词如meat等的熵要小。
    这里写图片描述

二、组合关系探索 条件熵
1. 条件熵 0<=H(X|Y)<=H(X)
这里写图片描述
这里写图片描述

  1. H(meat|meat)=0
    “the”的出现对是否有meat并无多大影响,所以对于减小meat的熵值也没什么作用,H(Xmeat|Xthe)会很接近于meat原本的熵值, 而eat和meat有关,eat能帮助减小meat的熵值,所有H(Xmeat|Xthe)会比H(Xmeat|Xeat)大。
    这里写图片描述

  2. 后者的熵不可比较是因为w1和w3的外部约束条件可能会不同
    这里写图片描述

三、组合关系探索和交互信息
1. 交互信息:有时可以用来标准化条件熵,以便条件熵可以对不同配对的X和Y进行对比
2. 交互信息的特点:非负;对称性 I(X;Y)=I(Y;X);当且仅当随机变量X和Y完全独立时,I(X;Y)达到最小值0,这意味着已知一个并不能告诉我们另一个的消息
这里写图片描述

  1. 一个词与它自己的交互信息是最大的,等于这个词的熵
    这里写图片描述

  2. 交互信息的计算:KL发散,发散越大,交互信息的值越高
    分子表示实际观测到的两个随机变量的联合分布,分母为理想的两个联合分布,如果分子分母的值是相等的,则两个变量是完全独立的,否则则说明两个变量间可以帮助度量关联。
    这里写图片描述

  3. 利用最大似然估计来计算概率,即对事件发生的次数作归一化。
    这里写图片描述

  4. 当count(w1)为0时,我们又不希望概率为0,此时就需要对其作平滑化处理,即计数时加上一个很小的常量。
    如下图右边的四个假设段,每一个的权重都是1/4,而w1出现了两次,所以+0.5,以此类推可以得到w1和w2同时出现就+0.25 。因为4个假设片段加起来为1,所以相应的总数N也要加1.
    这里写图片描述

四、主题挖掘分析
1. 任务:从一系文本中找出k个主题,然后再看哪篇文章多大程度上涵盖了哪些主题
2. 用术语代表一个主题
这里写图片描述
3. 用单词划分来表示一个主题
使用了很多相关词,所以能描述较复杂的主题;能量化术语,模型化语义差异,于是可以在模式化一个主题时引入相关词汇;因为我们可以用概率指代不同主题中的同一词汇,从而分离语感,在文本中解码隐藏主题
这里写图片描述
这里写图片描述
这里写图片描述
4. 统计语言一元模型概述
这里写图片描述
这里写图片描述
这里写图片描述
5. 最大似然估计与贝叶斯先验
这里写图片描述
5.1. 在极大似然估计中,我们将最优值定义为数据似然值达到最大。不过当样本集合很小的时候,如果我们完全依赖于已有数据,并且试图使估计拟合这些数据则会出现偏差。
5.2. 而贝叶斯估计中,用p(X)表示对于x的先验信念,即在关注到其他数据前,已经对x有了belief,我们相信x取某些值的概率比其他值高。p(X|Y)关于X的后验概率,即观察了Y后对X值分布的信念。p(Y|X)即对于特定的X观察到的证据Y的概率。
可以将贝叶斯理解为,将x看成一个假设,我们对这假设原本有一些想法,然后通过观察y后,我们将修正我们的信念。修正信念的公式基于先验和x确实为真的条件下观察到的y的可能性的组合。
图上这条关于theta的公式中,p(theta)表示参数先验值,而p(x|thete)则为确定怎样的参数值能恰当解释数据,从而寻求最大化后验数据后的theta值,这种估计方法称为最大后验估计,又称MAP估计。
这种方法比几大似然估计实用,因为如果我们定义的先验不包括任何信息,则以为着所有theta值的均匀分布没有偏向,这种情况下将回归到极大似然估计上,因为最终影响值的确定取决于p(x|theta);而如果先验包含有信息,则对于不同值的偏向不同,此时就需要MAP。
5.3.
这里写图片描述
prior mode :先验众数 MLestimate:极大似然的最大概率
posterior: 后验众数
6. 只从一个文档中挖掘一个主题
这里写图片描述
因为假设单词都是独立的,所以文档的概率就是每个单词的概率的积。因为某些单词存在重复,所以可以把第一行的公式改为第二行。其中c(w,d)表示w这个词在d文档中出现的次数。

这里写图片描述
拉格朗日法求得的theta i的最优解为通过文本长度正则化后的计数值,文本长度也是文本中的单词数

测验
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
第6题答案应为False, the的出现对于text并无影响,所以H(Xtext|Xthe)会很接近于H(text),所以the这个会更大
这里写图片描述
第8题应该是选两个词的熵一样,根据上面抛硬币那个熵函数图,可知0.99和0.01所对应的熵值是相同的
这里写图片描述

**第9题应选第一个和第四个,若P=1,则H=0,无关X的值
第10题为True, 无偏置的熵会高于偏置的,偏置(p=0,1)情况下熵为0**

什么是熵?对于什么样的随机变量,熵函数会达到它的最大值和最小值?
答:熵可以理解为是一个事件发生的不确定性,当一个词出现的次数多时,其概率就高,这种不确定性就会小。当p(x)=0和p(x)=1时熵函数最小为0,当p(x=1/2)时最大 为1。若有n个随机变量,则概率为1/n时,熵达到最大。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Text mining, also known as text analytics, is the process of extracting useful information from unstructured or semi-structured text data. This involves using various natural language processing (NLP) techniques to analyze and understand the content of the text. Text mining can be applied to a wide range of text data sources, including social media posts, customer reviews, news articles, and scientific papers. The primary goal of text mining is to uncover insights and patterns that can be used to inform decision-making and improve business outcomes. For example, a company may use text mining to analyze customer feedback and identify common themes and issues that need to be addressed. A healthcare organization may use text mining to analyze patient records and identify patterns in disease diagnosis and treatment. Text mining involves several steps, including data collection, preprocessing, analysis, and visualization. The data is usually first cleaned and preprocessed to remove noise and irrelevant information. NLP techniques are then used to tokenize the text, identify parts of speech, and extract entities and sentiment. The resulting data is analyzed using statistical and machine learning techniques to uncover patterns and relationships. Text mining has numerous applications in industries such as marketing, finance, healthcare, and government. It helps organizations to gain insights into customer behavior, market trends, and public opinion. It is also used to detect fraud, identify security threats, and monitor social media for crisis management.

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值