R语言stringr包字符串、文本数据处理函数(数据清洗、正则表达式)

最近一直在忙于数据清理、整理,分析、可视化都不多,想来把数据处理中的一些方法分享给大家!

本篇是对你接到一个烫手山芋时,如何将它们一并拿下!

 

stringr包函数处理脏数据可谓是屡试不爽,例如:网络爬取的数据、平台反馈数据、用户数据、医疗数据

由于时间比较赶,下面写到的都是常用的数据处理函数

1、最基础的就是字符串拼接函数:str_c、str_join

2、数据匹配函数:inner_join、right_join、left_join、semi_join、anti_join等,其实这个就和sql中的一样。在你匹配数据的时候经常出现匹配误差很大,而实际上很多数据本身是匹配的,那么你赶紧用用str_trim去除数据中的空格,还有数据的格式,这个就很容易从报错中知道。

3、字符串的计数str_count: 字符串计数、str_length: 字符串长度,至于怎么用今天就不写了,太晚了。

4、数据拆分函数:str_split、str_split_fixed,两者的 区别在于输出数据格式不同、参数可选不同

5、匹配、筛选、清理对应格式数据,str_replace、str_replace_all,两者主要在于前者只有匹配第一个与之相对应格式的数据,而后者会处理所有,函数中均有三个参数:数据列column或者文本数据等,匹配模式pattern(可根据需求使用固定格式的匹配方式、还可用正则表达式编写相应的通用pattern),替换的值

6、定位相应格式数据的位置:str_locate、str_locate,这个就比较方便,可以定位到你想要知道的数据具体位置进而去做处理

7、检查匹配字符串的字符函数:str_detect,这个函数会判断相应pattern的字符,它并不是判断两个值是否相等,而是去具体的值中搜索是否存在相应模式的值,然后返回TRUE/FALSE

8、从字符串中提取匹配组:str_match、str_match_all,这个函数就与前面的str_replace不同,它是匹配你想要的pattern值返回给你,str_replace是清除。其实从字符串中提取匹配字符函数str_extract与它有点类似

 

 

不写了不写了,下次继续,这里面的函数基本都可以使用正则表达式去处理疑难数据,至于语法了,就不介绍了,后面专门写一篇语法。

 

欢迎下次来看哈!小编等你

:

  • 2
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

LEEBELOVED

一分钱都是爱

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值