数据处理
Sunshine_502
这个作者很懒,什么都没留下…
展开
-
爬虫基础:正则表达式
文章目录 正则表达式简介正则表达式匹配规则re模块compile 函数Pattern 对象Match 对象 范例常见格式分组位置分组分割批量替换正则案例: 正则表达式简介 为什么要学正则表达式? 实际上爬虫一共就四个主要步骤: 明确目标 (要知道你准备在哪个...原创 2021-01-30 17:02:19 · 886 阅读 · 0 评论 -
Kmeans聚类中常用的k值寻找方法-手肘法-轮廓系数法
最近做了一个数据挖掘的项目,挖掘过程中用到了K-means聚类方法,但是由于根据行业经验确定的聚类数过多并且并不一定是我们获取到数据的真实聚类数,所以,我们希望能从数据自身出发去确定真实的聚类数,也就是对数据而言的最佳聚类数。为此,我查阅了大量资料和博客资源,总结出主流的确定聚类数k的方法有以下两类。1.手肘法1.1 理论手肘法的核心指...原创 2021-01-18 17:07:40 · 36928 阅读 · 5 评论 -
re模块,匹配字符,字符替换
编辑本随笔 常用表达式规则: .默认匹配除\n之外的任意一个字符,一个点代表一个字符,指定flag DOTA L L则匹配任意字符,包括换行^ 匹配字符串开头,若指定flag MULTILINE忽略换行符,也可匹配上(r'^a','\nabc\ndef') re.starch('^a','abcd')等效re.match('a','abcd') $ 匹配字符串结尾,指定flag MULTILINE,也可...转载 2021-01-16 16:48:40 · 1564 阅读 · 0 评论 -
特征工程:缺失值填充总结(众数,中数,KNN近邻填充,预测填充)
面试不仅仅是一个找工作的过程,还是一个向面试官交流学习的过程。之前的某次面试中,聊到了缺失值填充方法,经面试官指点学到了一些技能,下面简要总结一下。 常见的缺失值填充方法有填充默认值、均值、众数、KNN填充、以及把缺失值作为新的label通过模型来预测等方式,为了介绍这几种填充方法的使用以及填充效果,本文将在真实数据集上进行简单比较。 1. 数据集介绍 数据集来源于 天池精准医疗大赛——人工智能辅助...转载 2021-01-11 10:54:14 · 4892 阅读 · 1 评论