正则表达式+NLTK
飞翔的大马哈鱼
这个作者很懒,什么都没留下…
展开
-
词性标注POS tagging,python手工实现
什么是词性标注,Part-of-speech tagging比如下面一段标注过词性的文字文字,用空格分开后,/前面的是英文单词,后面表示它的词性。Confidence/NN in/IN the/DT pound/NN is/VBZ widely/RB expected/VBN to/TO take/VB another/DT sharp/JJ dive/NN if/IN trade...转载 2018-08-29 16:47:11 · 860 阅读 · 0 评论 -
正则表达式符号表
1. 正则表达式基础1.1. 简单介绍正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎,效率上可能不如str自带的方法,但功能十分强大。得益于这一点,在提供了正则表达式的语言里,正则表达式的语法都是一样的,区别只在于不同的编程语言实现支持的语法数量不同;但不用担心,不被支持的语法通常是不常用的部分。如果已经在其他语言里使用...转载 2018-09-14 12:48:09 · 1474 阅读 · 1 评论 -
re.sub●search●findall●split
re.sub()正则替换,替换字符re.sub(要替换的字符,替换后字符,目标字符串,替换个数),返回值为全部替换后的字符串 与python的内置函数replace()一样import relanguage = 'PythonC#JavaC#PHPC#'r = re.sub('C#','GO',language)print(r)#输出PythonGOJavaGOPHPGO...原创 2018-09-02 16:56:43 · 461 阅读 · 0 评论 -
用 Python 实现 LDA
原文出处:Jordan BarberLDA 是什么 LDA 演练 需要用到的包 导入文档 清洗文档 分词 移除停用词 词干提取 创建 document-term matrix 应用 LDA 模型 检查结果 LDA 原理 完整代码 LDA 是什么?隐含狄利克雷分布(以下简写为 LDA)是一种主题模型,它基于一组文档中的词频生成主题。...转载 2018-07-07 23:29:36 · 1727 阅读 · 0 评论 -
NLTK读书笔记 — 分类与标注
本文转载自http://www.tuicool.com/articles/feAfi20. 本章所关注的问题(1) 什么是lexical categories,怎样将它们应用于NLP?(2) 什么样的python数据结构更适合存储词和它们的类别?(3) 我们怎样自动地给词做标注另外,本章还会包含NLP中一些基础的技术: sequence labeling , n-转载 2017-07-14 20:01:52 · 1546 阅读 · 0 评论 -
使用Python+NLTK实现英文单词词频统计
使用Python+NLTK实现英文单词词频统计 使用PythonNLTK实现英文单词词频统计 应用场景 Fork Me 参考运行环境 流程步骤图 详细步骤 读取文件 过滤特殊符号以及还原常见缩写单词 分词 词形还原 NLTK 单词的TAG 词形还原 统计词频 结果写入文件 应用场景本人近...转载 2017-07-14 10:51:16 · 6002 阅读 · 1 评论