![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python实战
文章平均质量分 52
Fifth quadrant
smart is the new sexy.
展开
-
Python安装Factory/faker失败的解决办法:ModuleNotFoundError: No module named ‘faker‘
Python安装Factory/faker失败的解决办法:ModuleNotFoundError: No module named 'faker'原创 2023-03-01 10:59:40 · 1474 阅读 · 3 评论 -
适用Mac的Python学习资源
莫烦python:https://mofanpy.com。推荐理由:由于mac和win系统的差别,因此在mac和win上编程和使用python等也会有一些差别,所以想给大家推荐一个最近发现的适用于mac系统的python学习资源,特别适合我这种技术不好的小渣渣。这个教程不需要考虑mac和win上编写和运行代码的差别,不会出现看的win系统的python教程,但是copy到mac系统上运行不了的情况。当然,如果是技术大神可以忽略这一点。这个教程里面包含python的基础教程,以及基于python的数据原创 2020-11-27 19:36:56 · 240 阅读 · 1 评论 -
Python进行文本预处理(文本分词,过滤停用词,词频统计,特征选择,文本表示)
系统:win7 32位分词软件:PyNLPIR集成开发环境(IDE):Pycharm功能:实现多级文本预处理全过程,包括文本分词,过滤停用词,词频统计,特征选择,文本表示,并将结果导出为WEKA能够处理的.arff格式。直接上代码:#!/usr/bin/env python# -*- coding: utf-8 -*-"""功能:PyNLPIR文原创 2016-08-25 15:28:51 · 64199 阅读 · 14 评论 -
【python问题解决】RuntimeError:NLPIR function 'NLPIR_Init' failed
1、实验过程:在pycharm中新建项目textmining,在项目下新建文件夹File,将pynlpir文件夹添加到该文件夹后,运行分词测试程序:#!/usr/bin/env python# -*- coding: utf-8 -*-"""功能:测试PyNLPIR包时间:2016年7月13日 13:02:37"""import pynlpirpynlpir.open()原创 2016-07-14 13:20:01 · 4403 阅读 · 0 评论 -
特征选择
文本特征提取的方法很多,如基于文本频率的特征提取法、信息增益法、卡方检验法和互信息法等。本文采用基于文本特征频率的提取法,计算文档频率DF,即计算出现某个term在同类文档中的DF。根据计算出来的DF值来选取能代表某类文档的特征词,本实验按DF从高到低,取每类文本前50个term作为特征词,共450个,去重后得到287个特征词。直接上代码:#!/usr/bin/env python# -原创 2016-07-11 19:00:08 · 1188 阅读 · 0 评论 -
TF-IDF值和文本向量化
根据提取的特征词计算特征值,即TF-IDF。采用向量空间模型(VSM)将文档表示成向量,并将文档输出为WEKA能处理的.arff格式。直接上代码:#!/user/bin/python# -*- coding: utf-8 -*-import codecsimport math# 特征词列表feture_word = [] # 存放特征词feture_word_dic =原创 2016-07-11 19:06:44 · 8665 阅读 · 2 评论 -
词频统计
词频统计TF是统计一个term在文本中出现的次数,一般来说,一个term在某类文本中出现的次数越多,就越能代表一类文本。当然,如果某个term在一类文本中出现的次数越多而在其他类文本里根本不出现,就更能代表这一类文本。直接上代码:#!/usr/bin/env python# -*- coding: UTF-8 -*-for j in range(1,10): for i in原创 2016-07-11 18:57:30 · 1936 阅读 · 0 评论 -
去停用词
停用词是一些完全没有用或者没有意义的词,例如助词、语气词等。本文的停用词表是笔者首先从网上下载的哈工大停用词表,含有767个停用词,过滤掉训练集中的停用词。由于停用词过滤得不干净,于是整合了其他词表,结合笔者自己根据实验需求制作的停用词,进行二次过滤。直接上代码:# -*- coding: UTF-8 -*- stopwords=[]st = open('/Users/Admini原创 2016-07-11 18:54:43 · 13826 阅读 · 0 评论 -
Python调用NLPIR/ICTCLAS进行文本分词
本文采用搜狗中文语料库mini版的文本数据,共九类(财经、IT、健康、体育、旅游、教育、招聘、文化、军事),每个类别共1990个文本,并在实验前通过.py程序抓取前500个文本数据作为训练集。数据预处理包括文本分词、去停用词、词频统计、特征选择、采用向量空间模型表示文档等。接下的几篇博文将按照这几个歩棸对文本进行预处理。文本分词主要通过Python调用中科院计算所汉语词法分析系统NLPIR原创 2016-07-11 18:44:50 · 11835 阅读 · 3 评论 -
Python实现汉诺塔移动
move(n, a, b, c)函数,它接收参数n,表示3个柱子A、B、C中第1个柱子A的盘子数量,然后打印出把所有盘子从A借助B移动到C的方法。代码如下:# -*- coding: utf-8 -*-def move(n, a, b, c): if n == 1: print('move', a, '-->', c) return mov原创 2016-07-10 15:31:50 · 1226 阅读 · 0 评论