实战分享之专业领域词汇无监督挖掘

最新推荐文章于 2022-10-19 11:24:33 发布

PaperWeekly

最新推荐文章于 2022-10-19 11:24:33 发布

阅读量2.1k

点赞数

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/89348286

版权

本文分享了一种无监督的电力专业领域词汇挖掘方法，包括使用NLP Zero进行新词发现，通过Word2Vec进行语义筛选和聚类，以及规则过滤非专业词汇。虽然在比赛中排名不理想，但提供了无监督抽取专业词的实现模板，对于类似任务有一定参考价值。

摘要由CSDN通过智能技术生成

640

作者丨苏剑林

单位丨广州火焰信息科技有限公司

研究方向丨NLP，神经网络

个人主页丨kexue.fm

去年 Data Fountain 曾举办了一个“电力专业领域词汇挖掘”的比赛，该比赛有意思的地方在于它是一个“无监督”的比赛，也就是说它考验的是从大量的语料中无监督挖掘专业词汇的能力。

大赛主页：

https://www.datafountain.cn/competitions/320/details

这个确实是工业界比较有价值的一个能力，又想着我之前也在无监督新词发现中做过一定的研究，加之“无监督比赛”的新颖性，所以当时毫不犹豫地参加了，然而最终排名并不靠前。

不管怎样，还是分享一下我自己的做法，这是一个真正意义上的无监督做法，也许会对部分读者有些参考价值。

基准对比

首先，新词发现部分，用到了我自己写的库 NLP Zero，基本思路是先分别对“比赛所给语料”、“自己爬的一部分百科百科语料”做新词发现，然后两者进行对比，就能找到一批“比赛所给语料”的特征词。

NLP Zero：

https://kexue.fm/archives/5597

参考的源码是：

from nlp_zero import *
import re
import pandas as pd
import pymongo
import logging
logging.basicConfig(level = logging.INFO, format = '%(asctime)s - %(name)s - %(message)s')


class D: # 读取比赛方所给语料
    def __iter__(self):
        with open('data.txt') as f:
            for l in f:
                l = l.strip().decode('utf-8')
                l = re.sub(u'[^\u4e00-\u9fa5]+', ' ', l)
                yield l


class DO: # 读取自己的语料（相当于平行语料）
    def __iter__(self):
        db = pymongo.MongoClient().baike.items
        for i in db.find().limit(300000):
            l = i['content']
            l = re.sub(u'[^\u4e00-\u9fa5]+', ' ', l)
            yield l


# 在比赛方语料中做新词发现
f = Word_Finder(min_proba=1e-6, min_pmi=0.5)
f.train(D()) # 统计互信息
f.find(D()) # 构建词库

# 导出词表
words = pd.Series(f.words).sort_values(ascending=False)


# 在自己的语料中做新词发现
fo = Word_Finder(min_proba=1e-6, min_pmi=0.5)
fo.train(DO()) # 统计互信息
fo.find(DO()) # 构建词库

# 导出词表
other_words = pd.Series(fo.words).sort_values(ascending=False)
other_words = other_words / other_words.sum() * words.sum() # 总词频归一化（这样才便于对比）


"""对比两份语料词频，得到特征词。
对比指标是（比赛方语料的词频 + alpha）/（自己语料的词频 + beta）；
alpha和beta的计算参考自 http://www.matrix67.com/blog/archives/5044
"""

WORDS = words.copy()
OTHER_WORDS = other_words.copy()

total_zeros = (WORDS + OTHER_WORDS).fillna(0) * 0
words = WORDS + total_zeros
other_words = OTHER_WORDS + total_zeros
total = words + other_words

alpha = words.sum() / total.sum()

result = (words + total.mean() * alpha) / (total + total.mean())
result = result.sort_values(ascending=False)
idxs = [i for i in result.index if len(i) >= 2] # 排除掉单字词

# 导出csv格式
pd.Series(idxs[:20000]).to_csv('result_1.csv', encoding='utf-8', header=None, index=None)