Python 自然语言处理
loveysuxin
这个作者很懒,什么都没留下…
展开
-
提取关键词--tf-idf算法讲解
假定现在有一篇长文《中国的蜜蜂养殖》,提取它的关键词,一个容易想到的思路,就是找到出现次数最多的词。如果某个词很重要,它应该在这篇文章中多次出现。于是,我们进行"词频"(Term Frequency,缩写为TF)统计。结果你肯定猜到了,出现次数最多的词是—-“的”、”是”、”在”—-这一类最常用的词。它们叫做**“停用词”(stop words)**,表示对找到结果毫无帮助、必须过滤掉的词。假...转载 2019-12-18 20:16:22 · 448 阅读 · 2 评论 -
python --统计词频Counter
python中可采用模块collections中的Counter统计词频,首先来一个直观的认识:from collections import Counterc = Counter(['11', '22', '11', '33', '11', '44', '55'])c2 = Counter("abcdefdasfdsafaf")print(c)print(c2)输出结果:...原创 2019-12-13 18:17:05 · 3063 阅读 · 0 评论 -
python--对文本分词去停用词提取关键词并词云展示完整代码示例
对文本分词、去停用词、提取关键词、并词云展示完整代码示例首先,文本all.txt的内容如下:北京故宫是中国明清两代的皇家宫殿,旧称紫禁城,位于北京中轴线的中心,是中国古代宫廷建筑之精华。北京故宫以三大殿为中心,占地面积72万平方米,建筑面积约15万平方米,有大小宫殿七十多座,房屋九千余间。是世界上现存规模最大、保存最为完整的木质结构古建筑之一。北京故宫于明成祖永乐四年(1406年)开始...原创 2019-12-13 17:42:39 · 10472 阅读 · 7 评论 -
python--jieba分词、词性标注、关键词提取、添加自定义词典完整代码示例
jieba是目前最好的 Python 中文分词组件,它主要有以下 3 种特性:支持 3 种分词模式:精确模式、全模式、搜索引擎模式 支持繁体分词 支持自定义词典1 分词 可使用 jieba.cut 和 jieba.cut_for_search 方法进行分词,两者所返回的结构都是一个可迭代的 generator,可使用 for 循环来获得分词后得到的每一个词语(unicode),或...原创 2019-12-11 17:00:57 · 14342 阅读 · 1 评论 -
python生成词云--完整代码示例
工作之余,写个python生成词云来玩玩~~~运行环境:pycharm,需要引入wordcloud包,中文分词需要用到jieba随便找了一篇介绍“故宫的文章”,以该文章为例生成词云。from wordcloud import WordCloudimport matplotlib.pyplot as plt #绘制图像的模块import jieba ...原创 2019-12-11 14:33:56 · 20913 阅读 · 0 评论 -
python的dict、set和不可变对象讲解
dict : Python内置字典 PS: dict的key必须是不可变对象,在Python中,字符串、整数等都是不可变的,因此,可以放心地作为key。而list是可变的,就不能作为key 把数据放入dict的方法,除了初始化时指定外,还可以通过key放入: d['Adam'] = 67 由于一个key只能对应一个value,所以,多次对一个...原创 2018-09-03 17:16:42 · 719 阅读 · 0 评论 -
python的list、tuple介绍
list:Python内置的一种数据类型是列表。list是一种有序的集合,可以随时添加和删除其中的元素。 >>> classmates = ['Michael', 'Bob', 'Tracy'] len()函数可以获得list元素的个数 ...原创 2018-09-03 17:09:39 · 139 阅读 · 0 评论 -
python 基础知识
Python的交互模式和直接运行.py文件有什么区别呢? 直接输入python进入交互模式,相当于启动了Python解释器,但是等待你一行一行地输入源代码,每输入一行就执行一行。 直接运行.py文件相当于启动了Python解释器,然后一次性把.py文件的源代码给执行了,你是没有机会以交互的方式输入源代码的。 python 输出 print()会依次打印每...原创 2018-09-03 17:00:39 · 181 阅读 · 0 评论 -
Python实现将文本分句代码
代码功能:将文本分句。import recutLineFlag = ["?", "!", "。"]sentenceList = []with open("F:\\shiyan\\4.txt", "r", encoding="UTF-8") as file: for line in file: #words = re.sub("\?", &q原创 2018-03-14 17:17:33 · 7383 阅读 · 1 评论 -
将一个文件夹下的多个.txt文本进行合并操作
代码功能:将一个文件夹下的多个.txt文本进行合并操作。#coding=utf-8'''功能:将多个TXT文件合并为一个TXT文件author:Lan'''import osfiledir='E:/ShiYan/data/hebing'filenames=os.listdir(filedir)#print(filenames)i=0f=open("E:\\ShiYan\\All...原创 2018-03-14 17:15:43 · 1897 阅读 · 0 评论 -
Python 下载并安装numpy matplotlib scipy
软件环境:win7 64bit Python2.71、设置系统环境变量将你的Python的script目录添加到系统的Path变量中。2、安装wheelcmd命令行输入:pip install wheel,如下图。3、安装numpy matplotlib scipy到http://www.lfd.uci.edu/~原创 2017-06-21 16:01:00 · 634 阅读 · 0 评论 -
HMM模型用在词性标注、分词
HMM(隐马尔可夫模型)是用来描述隐含未知参数的统计模型,举一个经典的例子:一个东京的朋友每天根据天气{下雨,天晴}决定当天的活动{公园散步,购物,清理房间}中的一种,我每天只能在twitter上看到她发的推“啊,我前天公园散步、昨天购物、今天清理房间了!”,那么我可以根据她发的推特推断东京这三天的天气。在这个例子里,显状态是活动,隐状态是天气。HMM描述任何一个HMM都可以通过下转载 2017-06-21 09:10:15 · 2857 阅读 · 0 评论 -
Python 环境下下载并安装NLTK说明
Python 环境下下载并安装NLTK原创 2017-06-20 09:57:44 · 8388 阅读 · 0 评论