python自然语言处理
文章平均质量分 78
lalalawxt
这个作者很懒,什么都没留下…
展开
-
python命名实体抽取学习记录(1)
一、命名实体识别基本概念 信息有多种表现形式,一个重要的形式就是结构化数据:即实体和关系的规范和可预测的组织。而现实生活中大多数自然语言句子是非结构化数据,为从文本获得其意义,我们首先需要将自然语言数据转化为结构化数据,然后利用强大的查询工具,如sql。这种从文本获取意义的方法被称为信息提取。 文本信息提取处理的顺序是:首先,使用句子分割器将该文档的原始文本分割成句原创 2017-02-19 14:35:22 · 25617 阅读 · 7 评论 -
python 预处理XML格式文档经验总结
XML(the Extensible Markup Language)格式为设计特定领域的标记语言提供了一个框架,它有时被用于表示已被标注的文本和词汇资源,不同于HTML标签是预定义的,XML允许我们组建自己的标签,不同于数据库,XML允许创建的数据不必事先指定其结构,它允许有可选、可重复的元素。 Python的标准库xml.etree.ElementTree可以直接调用来处理XM原创 2017-03-03 20:12:52 · 1016 阅读 · 0 评论 -
Windows 下 anaconda 安装第三方包
anaconda 集成了很多科学计算中所需要的包,如numpy,scipy等等,具体查看anaconda中已经预先安装配置好的包有哪些,可以通过cmd命令,输入conda list 查看,如下图所示: 但是,因为实际需求,我们会需要导入列表中没有的第三方包,如gemsim,在anaconda中,我们可以参考以下步骤安装所需要的第三方包: 1、启动anac原创 2017-04-28 14:04:10 · 12639 阅读 · 0 评论 -
解决Windows 下 anaconda python2 与 python3 共存问题
对于python刚入门的人都会遇到一个选择问题:选择python2 还是python3,众所周知,python与其它编程语言不一样即新版本与旧版本是不兼容的,最明显的区别就是语法上都存在差异。刚开始入门的时候因为暂时问题需求不是很多,而且因为据说1.支持python2的包比较多 ;2.现有的很多python入门教程都是基于python2; 3.据说python2比较稳定所以选择了python2。因原创 2017-04-21 16:42:51 · 12657 阅读 · 0 评论 -
python 实现机械分词(1)-正向最大匹配算法
词语是自然语言处理中重要的知识载体和基本操作单元, 但是中文里词与词之间没有很明显的标记,它们都是连续的字符串,所以文本处理的第一步是怎样进行中文分词。分词是添加合适的显性的词语边界标志使得所形成的词串反映句子的本意的过程。分词主要有基于字符串匹配的方法、基于规则的方法和基于统计的方法,本文主要通过python实现基于字符串匹配的方法也称为机械分词中的两类方法:正向最大匹配算法和逆向最大匹配算法,原创 2017-07-20 09:43:13 · 12782 阅读 · 6 评论 -
python实现机械分词(2)-逆向最大匹配算法
2、逆向最大匹配方法 逆向最大匹配分词是中文分词基本算法之一,因为是机械切分,所以它也有分词速度快的优点,且逆向最大匹配分词比起正向最大匹配分词更符合人们的语言习惯。逆向最大匹配分词需要在已有词典的基础上,从被处理文档的末端开始匹配扫描,每次取最末端的i个字符(分词所确定的阈值i)作为匹配字段,若匹配失败,则去掉匹配字段最前面的一个字,继续匹配。原创 2017-07-20 10:28:12 · 5123 阅读 · 1 评论 -
Python 文件读取相关操作函数
一、txt文件读取(1)import codecs codecs 模块是专门用来做编码转换的。在python文件读取过程中,编码问题是经常影响新手读取文件的问题,使用该模块可以自动做编码转换。(2)读取文件def readfile(path): with codecs.open(path,"r",encoding="utf-8") as f: lines = f.readl...原创 2018-03-08 16:48:03 · 2643 阅读 · 0 评论 -
Python TF-IDF 算法 提取文本关键词
TF(Term Frequency)词频,在文章中出现次数最多的词,然而文章中出现次数较多的词并不一定就是关键词,比如常见的对文章本身并没有多大意义的停用词。所以我们需要一个重要性调整系数来衡量一个词是不是常见词。该权重为IDF(Inverse Document Frequency)逆文档频率,它的大小与一个词的常见程度成反比。在我们得到词频(TF)和逆文档频率(IDF)以后,将两个值...原创 2018-03-09 16:46:34 · 15467 阅读 · 5 评论