![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
机智的小飞猪
一个热爱学习的freestyle!
展开
-
数据挖掘学习笔记——(五)贝叶斯模型
贝叶斯模型 朴素贝叶斯的三个常用模型:高斯模型、多项式模型、伯努利模型。 在sklearn中可以使用封装好的方法直接使用, 使用dataset生成数据 from sklearn import datasets iris=datasets.load_iris() x=iris.data y=iris.target 高斯模型 当特征是连续变量的时候,运用多项式模型就会导致很多(不做平滑的情况下),...原创 2020-03-13 13:17:03 · 377 阅读 · 0 评论 -
数据挖掘学习笔记——(四)文本挖掘
概念 文本数据挖掘是从文本中进行数据挖掘(Data Mining)。从这个意义上讲,文本数据挖掘是数据挖掘的一个分支。 工具类 jieba 工具类使用 import jieba str = "好好学习,天天向上!" print("/".join(jieba.lcut(str))) # 精简模式 print("/".join(jieba.cut(str, cut_a...原创 2020-03-09 21:28:42 · 504 阅读 · 0 评论 -
数据挖掘学习笔记——(三)用户画像
用户画像 百度百科 用户画像又称用户角色,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用。我们在实际操作的过程中往往会以最为浅显和贴近生活的话语将用户的属性、行为与期待的数据转化联结起来。作为实际用户的虚拟代表,用户画像所形成的用户角色并不是脱离产品和市场之外所构建出来的,形成的用户角色需要有代表性能代表产品的主要受众和目标群体。 建立用户画像 要贴标签...原创 2020-02-29 18:03:35 · 732 阅读 · 0 评论 -
数据挖掘学习笔记——(二)数据清洗(缺失值)
当我们拿到数据的时候,总会发现数据并不是我们理想中的数据,这时候就要进行数据清洗。 缺失值填充 平均值 将目前全部数据的平均值直接填充。 回归模型预测 剔除掉 当缺失值的数量过多,可以考虑直接剔除掉这列数据。 平均值填充进阶 以年龄为例。 可以根据姓名列的称呼求取平均值。 新建一列称呼列(call),如Miss,Mr,Mrs等,将人数较多的单独归类,人数较少的结合起来叫others。 ...原创 2020-02-27 16:39:06 · 224 阅读 · 0 评论 -
数据挖掘学习笔记——(一)初探数据挖掘
数据挖掘 何为数据挖掘,百度百科讲到: 数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。 数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。 数据挖掘流程 (一)数据读取 读取数据,进行演示 统计数据各项指标 明确数据规模与要完成的任务 (二)特征理解分析 单特征分析,逐个变量分析其对结果...原创 2020-02-26 15:40:26 · 234 阅读 · 0 评论