- 博客(2)
- 收藏
- 关注
原创 文本预处理学习(1)
nchar和length的字符统计nchar是向量元素的字符个数,而length是向量长度(向量元素的个数)x=c('hello world','1','12')nchar(x);length(x)length('');nchar('')字体大小写tolower,toupper,chartrDNA='AtGCtttACC'tolower(DNA);toupper(DNA)chartr(old
2016-10-28 15:40:52 2104
转载 文本分类的数据预处理流程介绍
在进行文本分类时,毫无疑问会涉及到对文本数据进行预处理,包括文档切分、文本分词、去停用词(包括标点、数字、单字和其它一些无意义的词)、文本特征提取、词频统计、文本向量化等操作。下面就这几方面作一个概括性的介绍,具体的实现还有待慢慢的研究。文档切分文档切分这个操作是可选的,取决于你获取到的文档集合的形式。如果你得到的文档集合本身就是一篇一篇文章分开的,那么这一步就可以省略了。反之,如果文档集合是一
2016-10-26 16:17:21 25255 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人