![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
文章平均质量分 78
想改名的小雄鹿
东北某研究所的在读菜鸡研究生
展开
-
关键词抽取工具-THUtag 个人使用心得
THUTag是清华大学自然语言处理与社会人文计算实验室实现的,具有关键词抽取与社会标签推荐工具包,提供关键词抽取、社会标签推荐功能,包括TextRank、ExpandRank、Topical PageRank(TPR)、Tag-LDA、Word Trigger Model、Word Alignment Model等算法。 Xinxiong Chen, Deming Ye, Xiance Si, Z...原创 2017-09-15 10:11:22 · 44174 阅读 · 1 评论 -
基于Lucene对少量新闻(5000篇左右)应用TFIDF方法进行关键字抽取与建立索引、检索
主要做了这么几件事:A)把室友爬到的5000多篇新闻搬运到了我的数据库B)从MySQL中读取出新闻,基于TFIDF进行了关键词的抽取C)使用Lucene,建立索引。抽取的关键词在建立索引的同时完成,关键字作为一个域与新闻的其他域如标题、正文等相同对待,建立索引。D)简单查询,简单对比一下效果 效果:评价标准:取自动打分高的前10篇,主观分为好中差三等评价:抽取原创 2017-10-30 08:27:47 · 403 阅读 · 0 评论 -
word2vec的代码注释
自己简单看了一下word2vec代码,写了一点注释。做个笔记,回头在整理一下。// Copyright 2013 Google Inc. All Rights Reserved.//// Licensed under the Apache License, Version 2.0 (the "License");// you may not use this file exce原创 2017-11-02 17:34:58 · 447 阅读 · 0 评论 -
使用BufferedReader处理HttpURLConnection.getInputStream()出现阻塞的问题
业务流程:我有一个语词列表,想查看在百度百科中是否有对应的词条。需要访问含有中文的指定URL。(题外说一句,由于URL中含有中文,直接访问会乱码,所以需要对中文部分进行编码解决。)由于百科对词条有大量的重定向(301、302等),所以也要对这部分处理。(这部分不是本文重点,所以忽略)。我使用BufferedReader包裹得到的输入流,但是由于readline()方法是阻塞方法。由于网络原因,可能原创 2018-01-18 14:08:43 · 4685 阅读 · 1 评论 -
JAVA开源爬虫 WebMagic 与 WebCollector 之间比较
WebMagic与WebCollector比较一、架构 Webcollector图片来自官方文档 WebMagic二、维护者WebMegic:董亿华,前点评工程师,现自主创业WebCollector::合肥工业大学DMIC三、最近更新时间(截止至2018.4.8)WebMegic: 2017.12WebCollector: 2018.3 四、活跃度(以github上issuse数目评价,截止至20...原创 2018-04-08 16:43:31 · 3750 阅读 · 1 评论