文本挖掘
sparkexpert
大数据挖掘技术(人工智能)的爱好者
展开
-
使用Stanford NLP工具实现中文命名实体识别
一、 系统配置Eclipseluna、 JDK 1.8+二、分词介绍使用斯坦福大学的分词器,下载地址http://nlp.stanford.edu/software/segmenter.shtml,从上面链接中下载stanford-segmenter-2014-10-26,解压之后,如下图所示data目录下有两个gz压缩文件,分别是ctb.gz和pku.gz原创 2015-10-29 21:27:18 · 29451 阅读 · 8 评论 -
python3环境下的全角与半角转换代码和测试
全角和半角转换是文本预处理的常见工作之一,然而现在网上一搜python的相关代码,几乎都是python2版本的,因此根据人角和半角的转换规律,将其代码撰写如下:1、全角与半角之间的转换规律角字符unicode编码从65281~65374 (十六进制 0xFF01 ~ 0xFF5E)半角字符unicode编码从33~126 (十六进制 0x21~ 0x7E) 特殊的:...原创 2018-09-18 08:33:36 · 3294 阅读 · 2 评论 -
适用于大规模文档关键词抽取的利器(flashtext)
从文档中抽取关键词并对关键词相关的变体进行替换,是信息抽取中常用的做法之一,特别是基于规则词典的方法。常见的实现方式是基于正则表达式的方式,2017年的这篇文档介绍则实现了一种全新的算法及其实现原理:flashtext (Replace or Retrieve Keywords In Documents at Scale)。该方法的效率如下图所示:(时间效率上可以看出是一条平衡的直线,不随文档词的原创 2018-01-21 17:22:47 · 1739 阅读 · 0 评论 -
Attention is all you need新翻译架构的测试
翻译的进展真是很快,如近日,谷歌再次宣布又在机器翻译上更进了一步,实现了完全基于 attention 的 Transformer 机器翻译网络架构。这篇文章的模型完全是在编码--解码程序基础上加上Attention机制。里面具体模型的实现可以借鉴别人的论文笔记:https://zhuanlan.zhihu.com/p/27469958。核心还是在于里面的Attentio原创 2017-06-27 09:04:30 · 3235 阅读 · 0 评论 -
使用word2vec训练wiki中文语料
实验环境:Ubuntu + eclipse + python3.5首先(1)下载最新中文wiki语料库:wget https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2(2)由于下载之后,语料库上的编码格式会有不同,因此需要进行处理一下:借鉴了这篇文章。ht原创 2017-03-31 09:47:28 · 5118 阅读 · 1 评论 -
神经网络在关系抽取中的应用
一、关系抽取简介信息抽取的主要目的是将非结构化或半结构化描述的自然语言文本转化成结构化数据(Structuring),关系抽取是其重要的子任务,主要负责从文本中识别出实体(Entities),抽取实体之间的语义关系。如:句子“Bill Gates is the founder of MicrosoftInc.”中包含一个实体对(Bill Gates, Microsoft Inc.),这两个原创 2017-05-27 22:59:37 · 25680 阅读 · 11 评论 -
基于seq2seq的中国对联自动配对技术实践
Sequence to Sequence模型这种基于编码--解码的模型已经被谷歌成功应用于机器翻译上。而理论上任意的序列到序列的有监督问题都可以用这种模型。如上一篇文章写的古诗生成。包括这一篇实践性的对联配对。对对联生成过程中,需要使用LSTM来实现,然后需要设置其编码与解码的相关参数。如下所示:# 创建基本的LSTM单元cells = [tf.contrib.rnn.Dropo原创 2017-05-03 11:00:56 · 3083 阅读 · 1 评论 -
基于seq2seq的中国古诗词自动生成技术
文本生成技术是深度学习赋予自然语言处理一项全新的技术,而刚好网上有这方面诸多的例子,因此趁着有空实现一下中国古诗的自动生成技术,还是挺好玩的。具体步骤主要包括以下几点:(1) 准备语料库,即对据有的古诗进行获取。(2) 生成关键词,并进行词向量转化。(3) 利用RNN的编码解码模型进行训练,由于RNN具备一对多的输出,因此可以很好地解决这种自动生成技术。原创 2017-05-03 10:50:14 · 9032 阅读 · 8 评论 -
面向社交网络用户的多维关联信息挖掘技术
将团队之前做过的微博用户多维分析的一些PPT进行分享。 (数据使用有些老,但是分析方法相对还是很全的) 微博数据蕴含了丰富的用户事件、内容、关系与态度等信息,在对数据充分理解分析的基础上,采用文本挖掘技术、统计学理论、关联分析与可视化等一系列相关技术,设计并实现了数据统计可视化、用户微博主题检测、情感倾向性分析、文本聚类分类、实体信息抽取、用户影响力分析、用户事件关联挖原创 2016-11-30 10:32:09 · 3626 阅读 · 2 评论 -
基于机器学习的自动问答系统构建
自动问答系统是当前自然语言处理领域一个非常热的方向。它综合运用了知识表示、信息检索、自然语言处理等技术。自动问答系统能够使用户以自然语言提问的形式而不是关键词的组合,提出信息查询需求,系统依据对问题进行分析,从各种数据资源中自动找出准确的答案。从系统功能上讲,自动问答分为开放域自动问答和限定域自动问答。开放域是指不限定问题领域,用户随意提问,系统从海量数据中寻找答案;限定域是指系统事先声明,只能回原创 2016-09-06 10:24:03 · 9224 阅读 · 10 评论 -
OCR汉字识别的测试
最近一直在做信息提取,其中碰到图片中文字提取的模块,这里面还真的水也很深。当然文字的定位提取是关键一步,但是更重要的还是后面直接输出文字模块。目前开源的tesseract,虽然已经取得了比较大的进步,但是经过今天测试,发现还需要有更大的提取。以目前的tesseract3.04版本,其测试结果如下:不过,简单了看了下这个开源架构,总体上可读性很强,也有很多封装接口。如针对C#原创 2016-08-19 23:43:57 · 2180 阅读 · 0 评论 -
中国期刊数据库元数据信息的多线程爬取
[注:本文所做实验只是用来进行学术研究,未进行任何商业操作。]在研究复杂网络过程中,其中异质网络是一种很普遍的现象。为了获取全面的数据,想着爬取期刊信息数据库,因为里面蕴含了丰富的数据信息,包括论文与论文之间的关系,论文与作者的关系,作者与作者的关系,作者与机构的关系,论文与关键字的关系。从这里面可以进行各种关系的挖掘和推理。然而要想爬这个数据,其实上受限制很大原创 2016-03-23 11:01:17 · 1239 阅读 · 0 评论 -
JSoup/NSoup对CSS类名称中含空格的处理
在爬虫过程中,经常需要对网页内容进行信息提取。而在这处理过程中,JSoup是经常常用的库。(Nsoup是Jsoup的.net开发版本)从JSOUP的官网例子中,可以处理几乎任何节点数据。但是在查找某个类别的CSS名称过程中,由于名称存在空格,导致其提取内容问题返回为空。相信这个问题大家经常遇到,于是在此将过程记录一下。如下面一个例子:原创 2016-03-19 16:30:13 · 2024 阅读 · 0 评论 -
基于Newtonsoft.Json进行JSON文档的解析
最近在处理一个JSON文档,想提取中国行政区划数据的时候,需要乃至JSON解析的工具,比较了下,.net系列的Newtonsoft.Json是一个性能比较优越的工具。网上关于它的解析方式也挺多,但是关于整个文档的解析方面还是不够的。JSON的格式如下所示。{'code':'110000','parentCode':'0','level':'1','name':'北京市'原创 2016-02-18 11:46:03 · 1030 阅读 · 0 评论 -
基于spark的自然语言处理包集成和测试(命名实体识别)
做文本分析挖掘肯定离不开自然语言处理,以前就完全掌握过stanford的NLP工具包,里面是非常强大的,特别其支持多语言的自然语言处理,对话题模型、实体关系挖掘都有现成的产品。看到网上有人做了spark + NLP结合的东东,于是自己也想试验一下。利用stanford nlp 3.6.0最新的进行了测试,对20news的文章进行命名实体抽取实验,这个过程还是非常简单的,其原理就是将每个文档原创 2016-01-06 21:51:47 · 3688 阅读 · 1 评论 -
SentencePiece的中文测试实践
许多自然语言处理程序中都用到了谷歌开源的SentencePiece作为词切分的基础工作之一,于是跟踪学习了下。1、基本介绍What is SentencePiece?SentencePiece is a re-implementation ofsub-word units, an effective way to alleviate the open vocabulary probl...原创 2019-07-05 17:10:15 · 4859 阅读 · 0 评论