数据清洗
lucky_ricky
这个作者很懒,什么都没留下…
展开
-
VIM中正则的非贪婪匹配
原文:http://blog.sina.com.cn/s/blog_3cf5c5ca0100wfmw.html朋友托我做几个静态页面,由于工作的缘故,已经习惯了使用vim,于是下了个gVim(Vim的win32版本)来对付html源文件。其间有一件很麻烦的重复性工作,是将超链接去掉,如下:将href="/celebrity/1049850/">梅莉莎·罗森伯格转载 2017-09-21 11:08:49 · 1031 阅读 · 0 评论 -
Python正则表达式指南
本文介绍了Python对于正则表达式的支持,包括正则表达式基础以及Python正则表达式标准库的完整介绍及使用示例。本文的内容不包括如何编写高效的正则表达式、如何优化正则表达式,这些主题请查看其他教程。转自:http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html1. 正则表达式基础1.1. 简单介绍转载 2017-09-18 19:54:42 · 417 阅读 · 0 评论 -
python 多个分隔符 split
python中.split()只能用指定一个分隔符例如:text='3.14:15'print(text.split('.'))输出结果如下:['3', '14:15']想一次指定多个分隔符,可以用re模块import retext='3.14:15'print(re.split('[.:]', text))输出结果如下:['3', '14', '15']...原创 2017-10-11 13:18:04 · 47201 阅读 · 2 评论 -
中文文本挖掘预处理流程总结
from:http://www.cnblogs.com/pinard/p/6744056.html在对文本做数据分析时,我们一大半的时间都会花在文本预处理上,而中文和英文的预处理流程稍有不同,本文就对中文文本挖掘的预处理流程做一个总结。1. 中文文本挖掘预处理特点 首先我们看看中文文本挖掘预处理和英文文本挖掘预处理相比的一些特殊点。 首先,中文文本是没有像英文的转载 2017-10-12 23:51:37 · 8759 阅读 · 1 评论 -
文本挖掘的分词原理
from : http://www.cnblogs.com/pinard/p/6677078.html 在做文本挖掘的时候,首先要做的预处理就是分词。英文单词天然有空格隔开容易按照空格分词,但是也有时候需要把多个单词做为一个分词,比如一些名词如“New York”,需要做为一个词看待。而中文由于没有空格,分词就是一个需要专门去解决的问题了。无论是英文还是中文,分词的原理都是类似的,本文就转载 2017-10-12 23:55:28 · 8443 阅读 · 0 评论