- 博客(5)
- 资源 (19)
- 问答 (4)
- 收藏
- 关注
翻译 主题建模入门指南(python)
简介所谓分析,通常都是指从数据中获取“信息”。近来,随着数据迅猛增长——其中绝大多数数据是非结构的,要想获得相关想要的信息变成越来越困难。庆幸地是,与此同时出现了一些强大的方法来帮助我们从这些数据中抽取出我们想要的信息。文本挖掘领域中这样相关的一种技术是主题建模。正如其名,主题建模能够从一个文本对象中自动识别它的主题,并且发现隐藏的模式。这些能够帮助做出更好的决策。主题建模和那些基于规则的文本挖掘方
2017-02-22 22:33:55 6953
原创 中文文本的字数统计(不包括标点符号且考虑英文/数字序列)
#-*-coding=utf-8 -*-"""统计一遍中文文章的字数(不包括标点符号,考虑英文/数字序列(不拆分成当个字母或数字)"""import reimport jiebac = "\\"text = """然而,在参加string聚会或者出席典礼时,很多人会抱怨自己挑不出一件拿得出手的裙子。望着摆满了鞋子的鞋架,发觉自己花了这么多钱,却选不出一双满意的鞋子。梳妆台上摆满了化妆品
2017-02-15 15:54:21 5741
原创 python字符串过滤性能比较
总共比较5种方法。直接看代码:import randomimport timeimport osimport stringbase = string.digits+string.punctuationtotal = 100000def loop(ss): """循环""" rt = '' for c in ss: if c in '0123456789
2017-02-11 09:21:37 2582
原创 Python文本操作相关模块
linecache——通过使用缓存在内部尝试优化以达到高效从任何文件中读出任何行。 主要方法: linecache.getline(filename, lineno[, module_globals]):获取指定行的内容 linecache.
2017-02-07 13:35:19 1037
翻译 Python文本处理之按行处理大文件
以行的形式读出一个文件最简单的方式是使用文件对象的readline()、readlines()和xreadlines()方法。 Python2.2+为这种频繁的操作提供了一个简化的语法——让文件对象自身在行上高效迭代(这种迭代是严格的向前的)。 为了读取整个文件,可能要使用read()方法,且使用字符串的split()来将它拆分WEIGHT行或其他块。下面是一些例子: >>> for
2017-02-06 11:28:54 9138
java网络编程
2015-02-10
datatools.connectivity
2014-11-02
Linux 从入门到精通
2012-04-29
嵌入式系统开发圣经
2012-04-21
编写自己的Shell解释器
2012-04-20
Linux核心手册
2012-04-20
Windows CE开发初步
2012-04-20
C语言程序实例
2012-04-19
arm入门笔记
2012-04-18
eclipse开发入门
2012-04-16
通过JDBC驱动连接Hive操作失败
2015-10-16
centos上通过rpm安装mysql失败
2015-10-14
python 打印不出任何信息
2015-04-28
jsoup解析网页时“www”变成“m”的问题
2015-02-27
TA创建的收藏夹 TA关注的收藏夹
TA关注的人