Python 使用nltk计算词的搭配

最新推荐文章于 2021-03-01 04:41:58 发布

guaguastd

最新推荐文章于 2021-03-01 04:41:58 发布

阅读量2.8k

点赞数

分类专栏： # PYTHON 文章标签：数据挖掘

PYTHON 专栏收录该内容

307 篇文章 5 订阅

订阅专栏

#!/usr/bin/python 
# -*- coding: utf-8 -*-

'''
Created on 2015-1-21
@author: beyondzhou
@name: nltk_compute_collocation.py
'''

import json
import nltk

# Load in human language data
DATA = r'E:\eclipse\Google\dFile\107033731246200681024.json'
data = json.loads(open(DATA).read())

# Number of collocations to find
N = 25

all_tokens = [token for activity in data for token in activity['object']['content'].lower().split()]

finder = nltk.BigramCollocationFinder.from_words(all_tokens)
finder.apply_freq_filter(2)
finder.apply_word_filter(lambda w: w in nltk.corpus.stopwords.words('english'))
scorer = nltk.metrics.BigramAssocMeasures.jaccard
collocations = finder.nbest(scorer, N)
for collocation in collocations:
    c = ' '.join(collocation)
    print c

cabo pulmo
maker faire
bay mini
east bay
pulmo sunrise
never search
mini maker
money supply
desired outcomes
open data
, +
important piece
it's also
new services
new york

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

guaguastd CSDN认证博客专家 CSDN认证企业博客

码龄12年

133: 原创

3万+: 周排名

122万+: 总排名

97万+: 访问

: 等级

1万+: 积分

212: 粉丝

82: 获赞

35: 评论

256: 收藏

私信

关注

热门文章

分类专栏

最新评论

Python 实现简单的加减算数游戏
华泽小勇: 如何加界面呢
[视觉工程]以图搜图之搜索策略(bf,kdTree,ballTree,annoy,nms,falconn)
韩国麦当劳: 大佬，您好，我想问一下你的falconn是怎么装的？我用pip安装老是报错 [code=plain] Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple Collecting FALCONN Using cached https://pypi.tuna.tsinghua.edu.cn/packages/96/b8/0d2c629d59398a7b3ed8726ce049abf6746bbf09d1ad15878d4fcf8048a6/FALCONN-1.3.1.tar.gz (1.4 MB) Preparing metadata (setup.py) ... done Building wheels for collected packages: FALCONN Building wheel for FALCONN (setup.py) ... error error: subprocess-exited-with-error × python setup.py bdist_wheel did not run successfully. │ exit code: 1 ╰─> [17 lines of output] running bdist_wheel running build running build_py creating build creating build\lib.win-amd64-3.7 creating build\lib.win-amd64-3.7\falconn copying falconn\__init__.py -> build\lib.win-amd64-3.7\falconn running egg_info writing FALCONN.egg-info\PKG-INFO writing dependency_links to FALCONN.egg-info\dependency_links.txt writing top-level names to FALCONN.egg-i [/code]
[GAN实战] DCGAN实现
weixin_53799925: 请问网络深度对gan有什么影响？如果使用一些卷积网络里的module会对gan有比较大的作用么
Python 使用递归打印输出数字（逆序和顺序）
豆汁泡纳豆: 醍醐灌顶
Python 正则表达式将纯文本转化为HTML格式
Tisfy: 正想看这样的文章，就遇到了它

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。