python自然语言处理及相关
文章平均质量分 84
无限大地NLP_空木
这个作者很懒,什么都没留下…
展开
-
python——thefuzzy、difflib详解
preface:最近业务上涉及一些文本匹配计算的东西,包括以往也涉及到,用到模糊匹配,但之前并没有深究原理。这次详细看了下模糊计算的得分怎么计算的。编辑距离计算略。thefuzzy:python的模糊匹配包,java也有实现。里面基本上基于difflib来实现的。 地址:https://github.com/seatgeek/thefuzz 安装:pip install thefuzzdifflib:计算两个字符串差异的包。有主要的SequenceMatcher类。SequenceMatc原创 2022-04-17 16:50:03 · 3070 阅读 · 0 评论 -
NLP预处理——编码、繁转简、停用词、表情、标签
preface:随着经历的积累,觉得预处理问题愈发重要,需要整理整理。环境:mac,anaconda2目录一、文本编码转换二、繁转简三、停用词四、表情异常符号五、html/json/xml标签处理六、切割一、文本编码转换python2 VS python3 python2读取文件:默认asciii,类型为str 转为utf-8 demo: ...原创 2019-03-10 19:03:06 · 5074 阅读 · 1 评论 -
NLP工具——stanford Parser使用手册
Preface:工作两年多了,陆续接触过蛮多工具,时常没有时间整理整理,最近接触得多了,整理整理自己接触到的NLP这块工具环境:macOS anaconda2目录一、下载安装资源二、使用运行配置及栗子分词及POS命名实体识别句法分析依存句法一、下载 安装 pip installstanfordcorenlp 资源 下载模...原创 2019-03-09 20:27:43 · 18243 阅读 · 7 评论 -
stanford parser 使用说明
preface: 最近忙着的项目想试着用斯坦福的parser,来解析句子生成句法分析树,然后分析子树,与treekernal结合起来,训练。stanford parser神器下载下来了,可使用却是蛋疼。一大堆说明,却没个方便快捷关于总的介绍。一、必先利其器stanford parser主页:http://nlp.stanford.edu/software/lex-parser.sh原创 2015-07-11 23:06:02 · 26081 阅读 · 6 评论 -
机器学习算法与Python实践之(一)k近邻(KNN)
机器学习算法与Python实践之(一)k近邻(KNN)zouxy09@qq.comhttp://blog.csdn.net/zouxy09 机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇见这本同样定位的书籍,所以就转载 2014-03-07 21:58:31 · 961 阅读 · 0 评论 -
《python自然语言处理》笔记---chap3加工原料文本
chap3中关于,NLP中的关键概念,包括分词和词干提取。字符串、文件、正则表达式、去除HTML标签以下所有程序,默认导入包import nltk,re,pprint #即,nltk包,正则表达式re包,输出pprint包3.1 从网络和硬盘访问文本电子书http://www.gutenberg.org/files/2554/2554.txt,古腾堡项目编号2554的文原创 2014-04-02 16:50:04 · 5985 阅读 · 1 评论 -
《python自然语言处理》笔记
工欲善其事,必先利其器:资源准备:《python自然语言处理》中文翻译NLTK Natural Language Processing with Python 中文版.pdf下载地址http://vdisk.weibo.com/s/4ffue/1334656530python自然语言工具包NTLK下载地址及方法见我的博客:http://blog.csdn.net/u010454729/原创 2014-03-26 20:54:34 · 1530 阅读 · 0 评论 -
[Python] 实现网络爬虫
1、什么是网络爬虫网络爬虫是现代搜索引擎技术的一种非常核心、基础的技术,网络就好比是一张蜘蛛网,网络爬虫就像是一只蜘蛛,在网络间‘爬来爬去’,搜索有用的信息。2、抓取代理服务器的网络爬虫本文介绍用python实现抓取代理服务器的网络爬虫,主要步骤是:1)利用urllib2获取提供代理服务的网页信息(本文以http://www.cnproxy.com/proxy1.html为例)转载 2014-03-18 10:56:33 · 1208 阅读 · 0 评论 -
python自然语言处理环境搭建
一、到NLTK的官网下载Python2.66(虽然Python已经到3.0了,但是2.x的比较稳定,兼容2.x的软件也比较多一些)、PyYAML和NLTK。下载地址:http://www.nltk.org/download点击打开链接,根据自己安装的python版本,安装对应的nltk版本启动python解释器,输入import nltk,如果报ImportError: No module转载 2014-03-20 14:34:58 · 1789 阅读 · 0 评论 -
python HTMLParser处理A标签…
HTMLParser类中有针对HTML标签的相应的函数,通过自定义,重载类中的函数来处理一些标签,函数如下:HTMLParser.anchor_bgn(href, name, type):#a标签开始的时候被调用,参数是A标签的属性值HTMLParser.anchor_end() #锚点标签结束的时候处理HTMLParser.save_bgn():#开始在缓冲区中保存字符数据,通过save原创 2014-03-13 22:35:42 · 1729 阅读 · 0 评论 -
探索 Python、机器学习和 NLTK 库
挑战:使用机器学习对 RSS 提要进行分类最近,我接到一项任务,要求为客户创建一个 RSS 提要分类子系统。目标是读取几十个甚至几百个 RSS 提要,将它们的许多文章自动分类到几十个预定义的主题领域当中。客户网站的内容、导航和搜索功能都将由这个每日自动提要检索和分类结果驱动。客户建议使用机器学习,或许还会使用 Apache Mahout 和 Hadoop 来实现该任务,因为客户最近阅读了有转载 2014-03-20 11:22:02 · 1170 阅读 · 0 评论 -
KNN算法的Python实现
from numpy import *import operatordef classify(inMat,dataSet,labels,k): dataSetSize=dataSet.shape[0] #KNN的算法核心就是欧式距离的计算,一下三行是计算待分类的点和训练集中的任一点的欧式距离 diffMat=tile(inMat,(dataSetSize,1))-dataS转载 2014-03-20 15:53:31 · 1465 阅读 · 0 评论 -
《python自然语言处理》笔记---chap2 获得文本语料和词汇资源
2.1 获取文本语料库古腾堡语料库import nltknltk.corpus.gutenberg.fileids()[u'austen-emma.txt', u'austen-persuasion.txt', u'austen-sense.txt', u'bible-kjv.txt', u'blake-poems.txt', u'bryant-stories.txt', u'bu原创 2014-03-28 11:04:56 · 2915 阅读 · 0 评论 -
《python自然语言处理》笔记---chap1 语言处理与python
>>> from nltk.book import **** Introductory Examples for the NLTK Book ***Loading text1, ..., text9 and sent1, ..., sent9Type the name of the text or sentence to view it.Type: 'texts()' or 'se原创 2014-03-27 20:07:58 · 2313 阅读 · 0 评论 -
《python自然语言处理》笔记---chap2 获得文本语料和词汇资源(续)
---------我可以投诉吗?不知道为什么上午接着写了好多,明明发表了,可是还是没了,是不是不能写那么多?-----载入你自己的语料库待续。。。2.3 更多关于python:代码重用使用文本编辑器创建程序函数局部变量,不能在函数体外访问。函数在被“调用”之前不会做任何事情。一个Python 函数:这个函数试图生成任何英语名词的复数形式。#coding:utf-8原创 2014-03-28 16:55:13 · 4789 阅读 · 3 评论 -
使用python调用新浪微博API的小经历
Python标准库里有专门处理Json的标准库--json库。使用的是新浪微博Python SDK。刚开始走了很多弯路,Python SDK的介绍页面内容有点少只是简单的介绍了如何使用这个SDK用新浪微博接入,至于如何获取用户的信息没有提到。Python SDK是第三方的基于2.7的,我见过有人改写的基于3.2的,链接忘存了。1、新浪微博python SDK的使用首先、需要自己申请为开转载 2014-03-18 16:52:45 · 2651 阅读 · 0 评论 -
如何通过python调用新浪微博的API
1.下载SDK使用python调用API的话,首先要去下一个Python的SDK,sinaweibopy连接地址在此: http://michaelliao.github.com/sinaweibopy/可以使用pip很快的导入,github连接里的wiki也有入门的使用方法,很容易看懂。 2.理解新浪微博的授权机制在调用API之前,首先要搞懂什么叫OAuth 2,即新浪微转载 2014-03-18 16:15:38 · 1383 阅读 · 0 评论