任务3-自然语言处理

任务3-自然语言处理】时长:2天

Task3 特征选择 (2 days)

1,TF-IDF原理

TF-IDF 是Term Frequency - Inverse Document Frequency 的缩写,即“词频-逆文本频率”,它由两部分组成,TF和IDF,

TF就是词频,文本向量化也就是做了文本中各个词的出现频率统计,并作为文本特征。

概括的来说,IDF反应了一个词在所有文本中出现的频率,如果一个词在很多文本中出现,那么它的IDF值应该低,如果一个词在较少的文本助攻出现,那么它的IDF值应该很高,极端情况,一个词在所有的文本中都出现,那么它的IDF值应该为0.

一个词x的IDF的基本公式如下所示:
I D F ( x ) = l o g ( N N ( x ) ) IDF(x) = log(\frac {N}{N(x)}) IDF(x)=log(N(x)N
其中, N N N代表语料库中文本的总数,而 N ( x ) N(x) N(x)代表语料库中包含词 x x x的文本总数。如果一个生僻词在语料库中没有,这样分母为0,IDF没有意义了,所以常对IDF进行平滑,平滑后的公式之一是:
I D F ( x ) = l o g N + 1 N ( x ) + 1 + 1 IDF(x) = log \frac {N+1}{N(x)+1}+1 IDF(x)=logN(x)+1N+1+1
所以,某一个词的TD-IDF值得计算公式如下:
T F − I D F ( x ) = T F ( x ) ∗ I D F ( x ) TF-IDF(x) = TF(x)*IDF(x) TFIDF(x)=TF(x)IDF(x)

2,文本矩阵化,使用词袋模型,以TF-IDF特征值为权重。(可以使用Python中TfidfTransforme)
   from sklearn.feature_extraction.text import TfidfTransformer  
   from sklearn.feature_extraction.text import CountVectorizer  

   corpus=["I come to China to travel", 
       "This is a car polupar in China",          
       "I love tea and Apple ",   
       "The work is to write some papers in science"] 

   vectorizer=CountVectorizer()

   transformer = TfidfTransformer()
   tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))  
   print(tfidf)

   from sklearn.feature_extraction.text import TfidfVectorizer
   tfidf2 = TfidfVectorizer()
   re = tfidf2.fit_transform(corpus)
   print(re)

计算出来的TF-IDF的如下所示:

(0, 16) 0.4424621378947393
(0, 15) 0.697684463383976
(0, 4) 0.4424621378947393
(0, 3) 0.348842231691988
(1, 14) 0.45338639737285463
(1, 9) 0.45338639737285463
(1, 6) 0.3574550433419527
(1, 5) 0.3574550433419527
(1, 3) 0.3574550433419527
(1, 2) 0.45338639737285463
(2, 12) 0.5
(2, 7) 0.5
(2, 1) 0.5
(2, 0) 0.5
(3, 18) 0.3565798233381452
(3, 17) 0.3565798233381452
(3, 15) 0.2811316284405006
(3, 13) 0.3565798233381452
(3, 11) 0.3565798233381452
(3, 10) 0.3565798233381452
(3, 8) 0.3565798233381452
(3, 6) 0.2811316284405006
(3, 5) 0.2811316284405006
(0, 4) 0.4424621378947393
(0, 15) 0.697684463383976
(0, 3) 0.348842231691988
(0, 16) 0.4424621378947393
(1, 3) 0.3574550433419527
(1, 14) 0.45338639737285463
(1, 6) 0.3574550433419527
(1, 2) 0.45338639737285463
(1, 9) 0.45338639737285463
(1, 5) 0.3574550433419527
(2, 7) 0.5
(2, 12) 0.5
(2, 0) 0.5
(2, 1) 0.5
(3, 15) 0.2811316284405006
(3, 6) 0.2811316284405006
(3, 5) 0.2811316284405006
(3, 13) 0.3565798233381452
(3, 17) 0.3565798233381452
(3, 18) 0.3565798233381452
(3, 11) 0.3565798233381452
(3, 8) 0.3565798233381452
(3, 10) 0.3565798233381452

3,互信息的原理。

在机器学习的相关文献里面,经常会用点互信息PMI(Pointwise Mutal Information)这个指标来衡量两个事物之间的相关性,比如两个词。计算公式如下:
P M I ( x ; y ) = l o g p ( x , y ) p ( x ) p ( y ) = l o g p ( x ∣ y ) p ( x ) = l o g p ( y ∣ x ) p ( y ) PMI(x;y) = log \frac{p(x,y)}{p(x)p(y)}=log \frac {p(x|y)}{p(x)}=log\frac {p(y|x)}{p(y)} PMI(x;y)=logp(x)p(y)p(x,y)=logp(x)p(xy)=logp(y)p(yx)
在概率论中,如果x和y不相关,那么p(x,y) = p(x)p(y),二者相关性越大,则p(x,y)就比p(x)p(y)越大。

互信息的计算公式如下:
I ( X ; Y ) = ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g p ( x , y ) p ( x ) p ( y ) I(X;Y) = \sum_{x \in X}\sum_{y \in Y}p(x,y)log\frac{p(x,y)}{p(x)p(y)} I(X;Y)=xXyYp(x,y)logp(x)p(y)p(x,y)
其衡量的是两个随机变量之间的相关性。

4,使用第二步生成的特征矩阵,利用互信息进行特征筛选。

参考

  1. [文本挖掘预处理之TF-IDF:文本挖掘预处理之TF-IDF - 刘建平Pinard - 博客园](https://www.cnblogs.com/pinard/p/6693230.html

  2. [使用不同的方法计算TF-IDF值:使用不同的方法计算TF-IDF值 - 简书](https://www.jianshu.com/p/f3b92124cd2b

  3. [sklearn-点互信息和互信息:sklearn:点互信息和互信息 - 专注计算机体系结构 - CSDN博客](https://blog.csdn.net/u013710265/article/details/72848755

  4. [如何进行特征选择(理论篇)机器学习你会遇到的“坑”:如何进行特征选择(理论篇)机器学习你会遇到的“坑” ](https://baijiahao.baidu.com/s?id=1604074325918456186&wfr=spider&for=pc

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
C语言是一种广泛使用的编程语言,它具有高效、灵活、可移植性强等特点,被广泛应用于操作系统、嵌入式系统、数据库、编译器等领域的开发。C语言的基本语法包括变量、数据类型、运算符、控制结构(如if语句、循环语句等)、函数、指针等。在编写C程序时,需要注意变量的声明和定义、指针的使用、内存的分配与释放等问题。C语言中常用的数据结构包括: 1. 数组:一种存储同类型数据的结构,可以进行索引访问和修改。 2. 链表:一种存储不同类型数据的结构,每个节点包含数据和指向下一个节点的指针。 3. 栈:一种后进先出(LIFO)的数据结构,可以通过压入(push)和弹出(pop)操作进行数据的存储和取出。 4. 队列:一种先进先出(FIFO)的数据结构,可以通过入队(enqueue)和出队(dequeue)操作进行数据的存储和取出。 5. 树:一种存储具有父子关系的数据结构,可以通过中序遍历、前序遍历和后序遍历等方式进行数据的访问和修改。 6. 图:一种存储具有节点和边关系的数据结构,可以通过广度优先搜索、深度优先搜索等方式进行数据的访问和修改。 这些数据结构在C语言中都有相应的实现方式,可以应用于各种不同的场景。C语言中的各种数据结构都有其优缺点,下面列举一些常见的数据结构的优缺点: 数组: 优点:访问和修改元素的速度非常快,适用于需要频繁读取和修改数据的场合。 缺点:数组的长度是固定的,不适合存储大小不固定的动态数据,另外数组在内存中是连续分配的,当数组较大时可能会导致内存碎片化。 链表: 优点:可以方便地插入和删除元素,适用于需要频繁插入和删除数据的场合。 缺点:访问和修改元素的速度相对较慢,因为需要遍历链表找到指定的节点。 栈: 优点:后进先出(LIFO)的特性使得栈在处理递归和括号匹配等问题时非常方便。 缺点:栈的空间有限,当数据量较大时可能会导致栈溢出。 队列: 优点:先进先出(FIFO)的特性使得
朴素贝叶斯是一种常用的机器学习算法,特别适用于自然语言处理任务。它基于贝叶斯定理和特征条件独立假设,通过计算给定特征条件下的类别概率来进行分类。 在自然语言处理中,朴素贝叶斯可以用于文本分类、情感分析、垃圾邮件过滤等任务。它将文本表示为特征向量,其中每个特征表示一个词汇或其他语言相关的属性。然后,通过计算每个类别下的特征概率,可以预测新文本属于哪个类别。 下面是一个使用朴素贝叶斯进行文本分类的示例: ```python from sklearn.feature_extraction.text import CountVectorizer from sklearn.naive_bayes import MultinomialNB # 准备训练数据 train_texts = ['I love this movie', 'This movie is great', 'I hate this movie'] train_labels = ['positive', 'positive', 'negative'] # 特征提取 vectorizer = CountVectorizer() train_features = vectorizer.fit_transform(train_texts) # 训练朴素贝叶斯分类器 classifier = MultinomialNB() classifier.fit(train_features, train_labels) # 预测新文本的类别 test_text = 'This movie is amazing' test_feature = vectorizer.transform([test_text]) predicted_label = classifier.predict(test_feature) print('Predicted label:', predicted_label) # 输出:Predicted label: ['positive'] ``` 在上面的示例中,我们首先准备了一些训练数据,包括文本和对应的类别标签。然后,使用`CountVectorizer`将文本转换为特征向量。接下来,使用`MultinomialNB`训练一个朴素贝叶斯分类器,并使用训练好的模型对新文本进行分类预测。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值