R 文字挖掘
文章平均质量分 72
记录R 文字挖掘,分析,应用的笔记
Skye‘s Blog
R/python 的数据分析,人工智能等 技能增进中......
展开
-
R 文字挖掘基本流程
文字挖掘的基本流程: 需要的工具套件: 内容来源:guternbergr 古腾堡计划,提供很多书籍电子版资料,可以用guternbergr套件以编号直接下载书籍 自己爬取内容:现成的爬虫工具,自己写爬虫 基本文字处理:dplyr、tidytext 包 断词系统:jiebar包 基本断词 自定义使用者断词词典 自定义停用词 欢迎关注【数据小盐罐儿】一个很“咸”的数据科学公众号,不定期分享有趣...原创 2020-03-05 22:14:37 · 361 阅读 · 0 评论 -
R 文字处理
R 文字处理 基本处理: • 切割:strsplit() • 子集:substr() • 大小写转换:toupper()tolower() • 两个文字连接:paste()paste0() • 文字取代:gsub() • 前后空白去除:str_trim()需要安装stringr包 • 字符串的统计:nchar() # 用空格分割 strsplit("Hello World"," ") ...原创 2020-03-05 22:07:07 · 421 阅读 · 0 评论