![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
Sweeney Chen
厚积薄发!
展开
-
数据清洗、数据集成
数据清洗、数据集成整个数据分析过程中,数据清洗大概占到了80%。数据质量准则:完整性:单条数据是否存在空值,统计的字段是否完善。全面性:观察某一列全部数据值可通过常识判断该列在数据定义、单位标识、数字本身方面是否有问题。合法性:数据的类型、内容、大小的合法性。唯一性:数据是否存在重复。对于缺失值的处理通常采用三种方法:删除:删除数据缺失的记录均值:使用当前列的均值d...原创 2019-05-14 10:28:36 · 3812 阅读 · 0 评论 -
EM最大期望算法
EM最大期望算法EM算法是一种求解最大似然估计的方法,通过观测样本,来找出样本的模型参数。最大似然估计是一种通过已知结果,估计参数的方法。EM算法中的E步骤就是通过旧的参数来计算隐藏变量,M步骤是通过得到的隐藏变量的结果来重新估计参数,直到参数不再发生变化。EM聚类在求解的过程中每个样本都有一定的概率和每个聚类相关,叫做软聚类算法。常用的EM聚类有GMM高斯混合模型和HMM隐马尔科夫模型...原创 2019-05-17 11:48:06 · 1066 阅读 · 1 评论 -
数据采集及采集工具八爪鱼的使用
数据采集及采集工具八爪鱼的使用一个数据的走势是由多个维度影响的,因此我们需要通过多源的数据采集,尽可能收集到更多的数据维度,公司保证数据质量,才能得到高质量的数据挖掘结果。数据源分类:开放数据源:政府、企业、高校等爬虫获取:网页、APP等日志收集:前端采集、后端脚本等传感器:图像、测速、热敏等开放数据源:可以从两个维度来考虑,一个是单位的维度,比如政府、企业、高校;一个就是行...原创 2019-05-13 21:58:06 · 15253 阅读 · 0 评论 -
用户画像及项目实例:电商用户画像
用户画像所谓用户画像就是标签的汇总,从用户不同方面信息中提取有价值特征来构建标签库,并从标签库中探索信息,从而构建用户画像。用户画像建模:第一步:统一用户唯一标识用户唯一标识是整个用户画像的核心,方便跟踪和分析一个用户的特征。设计唯一标识的选择:用户名、注册手机号、联系人手机号、邮箱、设备号、CookieID等。第二步:给用户打标签,即用户画像用户消费行为分析,可从4个维...原创 2019-05-12 20:41:29 · 4664 阅读 · 2 评论 -
商业智能BI、数据仓库DW、数据挖掘DM
商业智能BI、数据仓库DW、数据挖掘DM商业智能BI、数据仓库DW、数据挖掘DM三者联系:商业智能可通过数据来预测消费者行为等。消费者的相关数据通常存储在数据仓库中。数据挖掘可以从消费者行为数据中分析总结出规律。商业智能BI(Business Intelligence),可以说是基于数据仓库,通过数据挖掘,得到商业价值的过程。数据仓库DW(Date Warehouse)是BI的基础,将原...原创 2019-05-13 21:35:36 · 669 阅读 · 0 评论 -
python爬取网易云音乐生成王力宏歌曲词云
python爬取网易云音乐生成王力宏歌曲词云# -*- coding:utf-8 -*-# 网易云音乐,通过歌手id生成词云import requestsimport sys,re,osfrom wordcloud import WordCloudimport matplotlib.pyplot as plt import jiebafrom PIL import Image i...原创 2019-05-21 18:29:41 · 2798 阅读 · 0 评论 -
信用卡违约率分析
信用卡违约率分析使用网格搜索的方式:# -*- coding: utf-8 -*-# 信用卡违约率分析import pandas as pdfrom sklearn.model_selection import learning_curve, train_test_split,GridSearchCVfrom sklearn.preprocessing import StandardS...原创 2019-05-21 18:24:40 · 1322 阅读 · 0 评论 -
数据挖掘基本流程
数据挖掘基本流程数据挖掘基本流程:商业理解:从商业的角度理解项目需求,通过数据挖掘来帮助业务。数据理解:尝试手机部分数据,对其进行探索,从而对数据有个初步认知。数据准备:收集数据并对其清洗、集成等操作,完成数据挖掘前的准备。模型建立:选择和应用各种算法模型,并进行优化,以得到更好分类结果。模型评估:对模型进行评价,并检查模型的每个步骤,确认模型是否实现商业目标。上线发布:通过数据挖...原创 2019-05-12 13:10:13 · 7110 阅读 · 0 评论 -
AdaBoost算法
AdaBoost算法集成算法通常有两种方式,分别是投票选举(bagging)和再学习(boosting)。bagging的方式在做投票选举的时候可以并行计算,多个弱分类器单元的决策是相互独立的,不存在依赖性。boosting是每次训练的时候都对上一次训练进行改进提升,在训练过程中弱分类器单元之间存在依赖性,当引入第K个分类器的时候,实际上是对前K-1个分类器的优化。AdaBoost即为自适...原创 2019-05-21 11:25:03 · 940 阅读 · 0 评论 -
K-Means
K-MeansK-Means的工作原理:随机选取K个点作为初始的类中心点将每个点分配到最近的类中心点,然后重新计算每个类的中心点重复第二步,直到类不发生变化,或达到最大迭代次数K-Means的引用:from sklearn.cluster import KMeansK-Means的创建:KMeans(n_clusters=8, init='k-means++', n_init...原创 2019-05-16 20:39:47 · 460 阅读 · 0 评论 -
PageRank算法
PageRank算法PageRank算法基于论文影响力因子的思想提出:当一篇论文被引用的次数越多,证明这篇论文的影响力越大PageRank 的简化模型:一个网页的影响力 = 所有入链集合的页面的加权影响力之和,公式表示为:PR(u)=∑v∈BuPR(v)L(v)P R(u)=\sum_{v \in B_{u}} \frac{P R(v)}{L(v)}PR(u)=v∈Bu∑L(v)...原创 2019-05-20 20:40:54 · 3128 阅读 · 0 评论 -
KNN
KNNKNN工作原理:计算待分类物体与其他物体之间的距离;统计距离最近的K个邻居;对于K个最近的邻居,它们属于哪个分类最多,待分类物体就属于哪一类。K值的选择:K值较小时,容易过拟合K值较大时,容易欠拟合一般采用交叉验证的方式选取 K 值距离的计算:两个样本点之间的距离代表了这两个样本之间的相似度。距离越大,差异性越大;距离越小,相似度越大。距离的计算方式:欧氏...原创 2019-05-16 15:06:08 · 364 阅读 · 0 评论 -
支持向量机SVM
支持向量机SVMSVM工作原理:从低维向高维映射,找到能够区分类别且分类间隔最大的超平面。SVM就是求解最大分类间隔的过程。分类间隔:di=∣ωxi+b∣∥ω∥d_{i}=\frac{\left|\omega x_{i}+b\right|}{\|\omega\|}di=∥ω∥∣ωxi+b∣最大间隔的优化模型:SVM的目标就是找出所有分类间隔中最大的那个值对应的超平面,属于数学...原创 2019-05-15 16:14:26 · 277 阅读 · 0 评论 -
朴素贝叶斯
朴素贝叶斯涉及概念:先验概率:通过经验来判断事情发生的概率后验概率:发生结果后,推测原因的概率条件概率:事件A 在另外一个事件B已经发生条件下的发生概率,记P(A|B)似然函数:关于统计参数的函数贝叶斯原理:求解后验概率P(Bi∣A)=P(Bi)P(A∣Bi)∑j=1nP(Bj)P(A∣Bj)P\left(B_{i} | A\right)=\frac{P\left(B_{i}\...原创 2019-05-15 11:02:04 · 214 阅读 · 0 评论 -
决策树
决策树决策树基于二分类思想,类似于编程语言中的if-else,决策树通常会有两个阶段:构造和剪枝。构造:构造的过程就是选择什么属性作为节点的过程。构造过程中会存在三种节点:根节点:最开始的节点内部节点:树中间的节点叶节点:决策结果剪枝:目的是为了防止过拟合。可分为预剪枝和后剪枝。预剪枝是指在决策树构造时进行剪枝。在构造过程中对节点进行评估,如果对某个节点进行划分,在验证...原创 2019-05-14 20:11:17 · 608 阅读 · 0 评论 -
数据变换、可视化
数据变换、可视化数据变换前的准备工作:字段过滤、数据探索、相关性分析、建模筛选在数据变换前,我们需要先对字段进行筛选,然后对数据进行探索和相关性分析,接着是选择算法模型(这里暂时不需要进行模型计算),然后针对算法模型对数据的需求进行数据变换,从而完成数据挖掘前的准备工作。数据变换通过数据平滑、数据聚集、数据概化和规范化等方式将数据转换成适用于数据挖掘的形式。常见变换方法:数据平滑...原创 2019-05-14 17:11:50 · 1150 阅读 · 0 评论 -
关联规则挖掘Apriori
关联规则挖掘Apriori及FP-Growth算法关联规则中的几个概念:支持度:某个商品组合出现的次数与总次数之间的比例。支持度越高,代表这个组合出现的频率越大。置信度:是个条件概念,即在A发生的情况下,B发生的概率是多少。提升度:当A出现时,对B出现概率的提升程度。提升度(A→B)=置信度(A→B)/支持度(B)提升度(A→B)>1:代表有提升提升度(A→B)=...原创 2019-05-18 20:43:29 · 1181 阅读 · 0 评论