文本分析--停用词集合(结合哈工大停用词表、四川大学机器智能实验室停用词库、百度停用词表等)

文本分析过程中,中文文本分析是一个非常重要的环节,而停用词表的选择也是非常关键的,网络流行了多种版本的停用词表,都具有各自的特点,现在对网络流行的多种停用词表继续去重处理,综合实现新的停用词表。不同版本的停用词表: 去重合并:# -*-coding:utf-8-*- import os &...

2017-04-18 14:20:32

阅读数 17462

评论数 32

文本分析--基于gensim的文本主题模型分析

#!/usr/bin/python # -*- coding:utf8 -*-import os import time import re import jieba.analyse import time# 关键词获取 def post_cut(): fr = open("po...

2017-04-12 18:05:21

阅读数 2415

评论数 1

文本分析--校园新闻:聚类

# -*-coding:utf-8-*-import jieba import os import codecs from sklearn import feature_extraction from sklearn.feature_extraction.text import TfidfTran...

2017-04-12 18:04:00

阅读数 908

评论数 0

文本分析--校园新闻:关键词获取

新闻数据:       每行都是一个文档,并且已经进行了分词和停用词处理。 # -*-coding:utf-8-*-import uniout import jieba.analyse from sklearn import feature_extraction from sklearn.fe...

2017-04-12 17:56:52

阅读数 836

评论数 0

文本分析--Gensim向量空间

# -*-coding:utf-8-*-import gensim""" Tutorial 1: Corpora and Vector Spaces """ import logginglog = logging.basicCon...

2017-04-12 17:51:58

阅读数 946

评论数 0

文本分析--Gensim概述

# -*-coding:utf-8-*-import gensim""" Getting Started with gensim Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中, 无监督地学习到文本隐层的主题向量...

2017-04-12 17:51:01

阅读数 1596

评论数 0

文本分析--NLTK访问文件

# -*-coding:utf-8-*-from __future__ import division import nltk, re, pprint""" 从网络和硬盘中访问文本: 1、电子书 2、处理的html ...

2017-04-12 17:47:38

阅读数 1250

评论数 0

文本分析--NLTK语料库选择

# -*-coding:utf-8-*-""" from nltk.book import * 获取所有的语料库 """""" 古滕堡语料库 """ # from...

2017-04-12 17:45:29

阅读数 2280

评论数 0

文本分析--NLTK自然语言处理

# -*-coding:utf-8-*-from __future__ import division from nltk.book import *""" 搜索文本 """ # print text1 # print text1...

2017-04-12 17:44:34

阅读数 1181

评论数 0

文本分析--simhash算法进行文本相似度判断

simhash算法分析:文本相似度算法:1、TF-IDF:TF(词频),IDF(逆词频)利用tf-idf得到一个词语的权重,来计算一篇文章的关键词2、simhash:局部敏感hash局部敏感:A、B具有一定相似性,在hash后,仍然保持相似性。通过将关键词集合hash成一串二进制,直接对比二进制数...

2017-04-12 10:20:24

阅读数 5949

评论数 0

文本分析--关键词获取(jieba分词器,TF-IDF模型)

关键词获取可以通过两种方式来获取:       1、在使用jieba分词对文本进行处理之后,可以通过统计词频来获取关键词:jieba.analyse.extract_tags(news, topK=10),获取词频在前10的作为关键词。       2、使用TF-IDF权重来进...

2017-04-11 15:44:24

阅读数 16370

评论数 9

文本分析--遍历文件夹和读写文件

分析: 1、读取指定目录下的所有文件 2、读取指定文件,输出文件内容 3、创建一个文件夹,并将内容放到指定文件中输入文件存放样例: 输入文件夹News_split下的所有文件: 输出文件存放样例: 创建一个文件夹News_split_cut,并将文件保存到文件夹下: 实现:# -*-...

2017-04-11 14:08:39

阅读数 1406

评论数 0

文本分析--数据收集

在进行文本分析的过程中,数据的获取是非常重要的,不同的网站所具有的结构也是不同的。下面将使用python进行解析网页,并且通过比较不同的数据爬虫包,选择了soupy包来进行爬取。       下面将对soupy进行详细的说明:(记录一下,待更新。。。)

2017-04-11 13:52:42

阅读数 512

评论数 1

文本分析--jieba中文分词

分词技术可以分为英文分词和中文分词:       对于英文分词而言,由于英文单词之间以空格来分隔,所以在进行英文分词的过程中,只需要针对空格进行划分就可以了。       对于中文分词而言,中文单词之间没有英文单词天然的空格来划分,所以就需要对中文进行处理;主要有三种方式:一个是基于字典匹配的...

2017-04-11 13:46:42

阅读数 2942

评论数 0

提示
确定要删除当前文章?
取消 删除