![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘实战
UP Lee
这个作者很懒,什么都没留下…
展开
-
tushare pro的token凭证码设置
1、首先需要注册新用户可以点击邀请链接注册:https://tushare.pro/register?reg=3481322、从头像上点击用户名,打开个人主页;3、,点击接口token,点击右边纸张图标,复制;4、在python中进行如下操作即可:token=‘你复制下来的token’ts.set_token(token)pro=ts.pro_api()df =...原创 2020-02-06 20:56:10 · 2561 阅读 · 1 评论 -
3、python关键字提取和词云美化
第一、理论准备1 读取图片背景 bimg = imread(imgFilePath)2 获取图片颜色bimgColors=ImageColorGenerator(bimg)3 重制词云的颜色wordcloud.recolor(color_func=bimgColors) 第二、案例代码实践# 读取文件的内容import codecs;content=[]f=co...原创 2018-12-11 10:00:22 · 2184 阅读 · 0 评论 -
4、python简单线性回归代码案例(完整)
第一、回归分析的步骤01 根据预测目标,确定自变量和因变量02 绘制散点图,确定回归模型类型03 估计模型参数,建立回归模型04 对回归模型进行检验回归方程的精度就是用来表示实际观测点和回归方程的拟合程度的指标,使用判定系数来度量。判定系数=相关系数R平方=ESS/TSS=1-RSS/TSS其中:具体公式见图TSS 总离差平方和ESS 回归平方和RSS ...原创 2018-12-11 10:00:31 · 25365 阅读 · 14 评论 -
5、Python多重线性回归(代码案例)
目录1、回归分析的步骤: 2、需要满足的条件3、矩阵数据绘制散点图4、代码实践案例多重线性回归:研究一个因变量与多个自变量间线性关系的方法1、回归分析的步骤:01 根据预测目标,确定自变量和因变量02 绘制散点图,确定回归模型类型03 估计模型参数,建立回归模型04 对回归模型进行检验回归方程的精度就是用来表示实际观测点和回归方程的拟合程度的指标,使用判...原创 2018-12-11 10:01:40 · 3714 阅读 · 1 评论 -
6、python逻辑回归代码案例实现
逻辑回归(Logistic Regression) 针对因变量为分类变量而进行回归分析的一种统计方法,属于概率性非线性回归。 优点:算法容易实现和部署,执行效率和准确度高。 缺点:离散类型的自变量数据需要通过生成虚拟变量的额方法来使用 2 公式对比线性回归方程y=a1x1+a2x2+....+anxnSigmoid函数(Sigm...原创 2018-12-11 10:09:46 · 4973 阅读 · 3 评论 -
8、python多项式贝叶斯文本分类(完整)
1、贝叶斯定理(Bayes Theorem)朴素贝叶斯分类(Naive Bayes Classifier) 贝叶斯分类算法,是统计学的一种分类方法,它是利用贝叶斯定理的概率统计知识,对离散型的数据进行分类的算法 2、贝叶斯算法的类型sklearn包naive_bayes模块GaussianNB 高斯贝叶斯BernoulliNB 伯努利贝叶斯Multionmi...原创 2018-12-11 10:09:57 · 3008 阅读 · 0 评论 -
9、python决策树分类(实战案例)
目录1、概念2 决策树生成方法3、决策树绘图方法4、案例代码示例1、概念决策树(DEcision Tree)他通过对训练样本的学习,并建立分类规则,对新样本数据进行分类,属于有监督学习决策树也是一种多功能的机器学习算法,它可以实现分类和回归任务,甚至是多输出任务。优点:决策树易于理解和实现决策树可处理数值型和非数值型数据2 决策树生成方法# ...原创 2018-12-11 10:10:04 · 9987 阅读 · 7 评论 -
21、python的K-means聚类分析方法案例代码
1、聚类分析是按照个体的特征将他们分类,让同一个类别内的个体之间具有较高的相似度,不同类别之间具有较大的差异性;2、基本理论Kmeans:K表示算法当中类的个数Means 均值算法:K-means 使用均值算法把数据分成k个类别的算法Kmeans算法:kmeans算法的目标,是把n个样本点划分到k个类中,使得每个点都属于离他最近的质心对应的类,以此作为聚类的标准质心:是指一...原创 2018-12-17 10:57:50 · 7198 阅读 · 9 评论 -
22、python关联规则案例代码
1、关联:(Association) 把两个或者两个以上在意义上,有密切联系的项组合在一起关联规则(Association Rules AR) 用于从大量数据中挖掘出有价值的数据项之间的相关关系 协同过滤(Collaborative Filtering,简称CF) 协同过滤常常被用于分辨某位特定固定可能感兴趣的东西,这些结论来自于对其他相似顾客对哪些产品...原创 2018-12-17 11:04:48 · 9263 阅读 · 13 评论 -
28、python强化学习、持续学习
1、持久化(Persistence) 持久化是程序开发中的专业术语,是指将程序数据在持久化状态和瞬时状态间转换的机制 保存模型 恢复模型 2、模型持久化方法sklearn.exeternals.joblib.dump(model,filePath) 保存模型model 内存中的模型对象filePath 需要保存的文件路径model=s...原创 2019-01-04 16:04:01 · 1069 阅读 · 0 评论 -
24、python分层聚类案例(scipy方法)
目录1、分层聚类算法2、方法3、分析步骤4、案例1、分层聚类算法 层次聚类算法又称为树聚类算法,它根据数据之间的距离,透过一种层次架构方式,反复将数据进行聚合,创建一个层次以分解给定的数据集。2、方法01 聚类方法linkage=scipy.cluster.hierarchy.linkage(data,method='single')data 训练...原创 2019-01-03 14:31:47 · 4609 阅读 · 1 评论 -
25、python分层聚类案例(sklearn方法)
1 sklearn层次聚类01 ward 最小化所有聚类内的平方差总和,这是一种方差最小化的优化方向,这是与k-means的目标韩式相似的优化方法,但是用聚类分层的方法处理。02 Maximum 或者complete linkage 最小化聚类对样本之间的最大距离03 Average linkage 最小化聚类两个聚类中样本之间的最大距离 2 案例...原创 2019-01-03 14:34:38 · 7360 阅读 · 2 评论 -
26、python密度聚类方法(DBSCAN密度聚类)
1、DBSCAN概念 基于密度的带噪声的空间聚类应用算法,它是将簇定义为密度相连的点的大集合,能够把足够高密度的区域划分为簇,并且可在噪声的空间数据集中发现任意形状的聚类。2、密度聚类和距离聚类密度聚类:只要临近区域的密度、对象、或者数据点的数目超过耨个阈值,就继续聚类,可以根据与周伟特点进行聚类kmeans和分层聚类都是基于距离进行聚类,只能发现球状的簇,五发现其他形式的簇...原创 2019-01-03 14:42:15 · 1795 阅读 · 0 评论 -
27、python时间序列预测(ARIMA模型案例代码)
目录1、模型识别01 主要的模型02 截尾和拖尾03 如何判断拖尾和截尾2、时间序列算法公式3、详细步骤01 平稳性检验(adf检验)02 对数据进行差分构造平稳序列03 平稳性监测04 白噪声检验05 定阶06 模型预测4、案例代码1、模型识别01 主要的模型AR(P)模型(Autoregressive Model) 自回...原创 2019-01-03 15:07:43 · 29281 阅读 · 20 评论 -
2、 python文本关键词提取实现(案例)
第一、理论准备1交叉计数函数pivot_table(value,index,columns,aggfunc,fill_value)# 参数说明values:数据透视表中的值index:数据透视表中的行(索引)columns;数据透视表中的列aggfunc:统计函数fill_value:NA值的统一替换。# 返回只说明: 数据透视表的结果2 IDF 公式的实现...原创 2018-12-11 10:00:12 · 6537 阅读 · 0 评论 -
1、python挖掘建模流程
目录1 定义目标2 数据采集2.1 抽取数据的标准2.2 衡量数据的质量标准2.3 基于挖掘目标需要的数据源2.4 在这些数据源中抽取用于建模的主要内容3、数据探索3.1 数据质量分析3.2 数据特征分析3.3 主要数据探索函数4 数据预处理4.1 数据清洗4.2 数据集成4.3 数据变换4.4 数据规约5 构建模型6 模型发...原创 2018-12-10 17:07:57 · 1419 阅读 · 0 评论 -
10、python随机森林代码案例
目录1 概念2 优点3 理论方法4、代码完整案例1 概念随机森林:随机森林是包含多个决策树的分类器,并且其输出类别是由个别树输出的类别的众数而定决策树见案例:https://blog.csdn.net/qq_36327687/article/details/849448502 优点01 适合离散型和连续型的属性数据02 对海量数据,尽量避免了过度拟合的问题...原创 2018-12-13 19:05:20 · 3996 阅读 · 1 评论 -
11、python分类方法 SVM支持向量机案例完整
1 支持向量机(简称SVM)是一个功能强大并且全面的机器学习模型,它能够执行线性或非线性分类、回归,甚至是异常值检测任务。它是机器学习领域最受欢迎的模型之一,任何对机器学习感兴趣的人都应该在工具箱中配备一个。SVM特别适用于中小型复杂数据集的分类。 2 案例# -*- coding: utf-8 -*-import scipy.io as sciowineData = s...原创 2018-12-13 19:07:48 · 3414 阅读 · 3 评论 -
13、python数据标准处理(0-1标准化、Z标准化、normalizer归一化)
数据标准化处理问题:量纲不一:就是单位、特征的单位不一致,不能放在一起比较处理方法:0-1标准化、Z标准化、normalizer归一化案例:# -*- coding: utf-8 -*-import pandasimport numpydata=pandas.read_csv( 'D:\\DATA\\pycase\\number2\\6.1\\d...原创 2018-12-13 19:24:14 · 18837 阅读 · 1 评论 -
12、python特征工程内容介绍
目录1 特征工程重要性2 特征工程内容包括3 数据处理 第一种、量纲不一 第二种 虚拟变量 第三种 缺失值处理特征工程(Feature Engineering)其本质上是一项工程活动,他目的是最大限度地从原始数据中提取特征以供算法和模型使用1 特征工程重要性 01 特征越好,灵活性越强(允许选择不复杂的模型,运行速度快,可以更好的理解和维护)...原创 2018-12-14 23:19:55 · 358 阅读 · 0 评论 -
14 python虚拟变量的数据量化处理
1 虚拟变量也叫作哑变量和离散特征编码,可用来表示分类变量、非数量因素可能产生的影响 2 category数据类型category是pandas的一种数据类型,对应着被通缉的变量。Categoricals是由固定且有限数量的变量组成的,比如:性别、社会阶层、血型、国籍、观察时段、赞美程度。与其它被统计的变量相比,categorical 类型的数据可以具有特定的顺序——比如:按程度...原创 2018-12-13 19:35:26 · 2558 阅读 · 0 评论 -
15 python数据缺失值处理方法代码示例
1 缺失值产生原因: 有些信息暂时无法获取 有些信息被遗漏或者错误地处理2 缺失值处理方法数据补齐删除缺失行不处理 3 代码示例import pandas data=pandas.read_csv('D:\\DATA\\pycase\\number2\\6.1\\data3.csv')# 均值'mean' 中值'median' most_freque...原创 2018-12-13 19:40:46 · 2741 阅读 · 0 评论 -
23、python协同过滤推荐案例代码
目录1、数据结构2、模型构建01 用户评分向量(User Rating Vector)02 商品评分向量(Item Rating Vector)03 距离计算(Distance)04 相似度计算(Similarity)05 相似邻居计算(Neighborhoods)3、调用方法4、基于人的协同过滤代码5、基于物品的系统过滤代码案例协同推荐(Collabo...原创 2018-12-19 19:16:11 · 1090 阅读 · 1 评论 -
16、python用方差方法选择数据特征
1 方差选择法 先计算各个特征的方差,选择方差大于阈值的特征2 案例import pandasdata = pandas.read_csv('D:\\database\\pystudy\\6.2\\data1.csv')# 查看数据框里边的数据类型data.dtypes# 导入计算方差的方法from sklearn.feature_selection import...原创 2018-12-14 15:25:17 · 3847 阅读 · 1 评论 -
17、Python特征工程,用相关系数法选择数据特征
1 相关系数法先计算各个特征对目标值得相关系数,选择更加相关的特征2 代码案例import pandasdata = pandas.read_csv('D:\\database\\pystudy\\6.2\\data2.csv')# 导热油特征选择的方法和相关系数的方法from sklearn.feature_selection import f_regression...原创 2018-12-14 15:31:27 · 8274 阅读 · 0 评论 -
18 python数据特征选择,递归特征消除法
1 递归特征消除法(RFE)使用一个基模型来进行多轮训练,经过多轮训练后,保留置顶的特征数RFE是recursive feature elimination回归特征消除,让回归特征消除过程中只保留no_features个最重要的特征,可以避免过度拟合,但RFE会舍弃一些变量,原没有下面几个方法给变量赋权重来的好。2 代码案例import pandasdata = pandas...原创 2018-12-14 19:06:50 · 8303 阅读 · 2 评论 -
19、Python数据特征选择,模型选择法
1 模型选择法把建好的模型对象传入选择器,然后根据这个已经建好的模型,自动帮我们选择最好的特征值。2 案例代码import pandasdata = pandas.read_csv('D:\\database\\pystudy\\6.2\\data2.csv')# 导入线性回归方程和模型选择方法from sklearn.linear_model import L...原创 2018-12-14 23:09:56 · 1635 阅读 · 0 评论 -
20、Python特征工程,维度压缩
1 维度压缩主成分分析(rincipal components Analysis)在减少数据集的维度的同时,保持对方差贡献最大的特征2 PCA方法pca_3=PCA(n_components=3) 维度设置fit 训练数据data_pca_3=pca_3.fit_transform(data)3 代码案例事例import pandasfrom sklearn ...原创 2018-12-14 23:13:11 · 1067 阅读 · 0 评论 -
7、KNN近邻分类业务案例详解 监督学习
KNN 近邻分类案例实战 (监督学习)目录KNN 近邻分类案例实战 (监督学习)一、概念二、训练方法要点01 训练集和测试集02 k折交叉验证(k-fold cross validation)三、API重点(KNN模型)四、案例一、概念KNN近邻分类算法(监督学习)KNN算法从训练集中找到和新数据最接近的K条记录,然后个努努他们的主要分类来决定新数据的类...原创 2018-11-26 23:04:41 · 642 阅读 · 0 评论