![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析
文章平均质量分 78
杨树1026
这个作者很懒,什么都没留下…
展开
-
python数据预处理练习
#ecoding=utf-8import mathimport reimport csvdef fileREAD(fileURL,access): "传入文件路径,返回存储文件内容的二维列表" localArray = [] # 创建一个列表用于存储文件内容 csvfile = file(fileURL, access) reader = csv.rea原创 2016-07-28 09:08:42 · 4422 阅读 · 1 评论 -
python arff稀疏格式文件传pandas DataFrame
#ecoding=utf-8import numpy as npfrom scipy.sparse import csr_matriximport pandas as pdfrom xml.dom.minidom import parsedef read_sparse_arff(f_path , xml_path): #读文件 f = open(f_path) ...原创 2018-11-12 15:36:13 · 1190 阅读 · 0 评论 -
支持向量机svm原理与常见问题
1,参数 C : float, optional (default=1.0):惩罚系数,越大越会过拟合 kernel : string, optional (default='rbf'):核函数,linear:线性, poly:多项式, rbf:高斯, sigmoid:sigmod, precomputed: ,callable:自定义。 degree : int, opt...原创 2018-10-22 15:40:20 · 1209 阅读 · 0 评论 -
决策树--ID3,C4.5,CART
ID3 : 信息增益、集和熵-集和按照属性划分后每个子集信息熵加权和C4.5 : 信息增益率、信息增益/属性信息熵,剪枝,连续,缺失CART: 基尼系数、按照属性划分后每个子集合基尼指数加权和(1-概率平方和),二叉树,特征再分裂参数1,criterion : string, optional (default="gini"),节点分裂标准2,splitter : string...原创 2018-08-07 21:09:07 · 225 阅读 · 0 评论 -
逻辑斯特回归总结--线性模型与非线性模型对比
LR 参数多分类情况下使用一对多策略,损失函数为交叉熵损失,求解方法为LBFGS,SAG和NEWTON-CG。1,penalty : str, 'l1' or 'l2', default: 'l2':正则项,默认为l2。三种求解方式只支持L22,dual : bool, default: False:是否转化为对偶问题3,C : float, default: 1.0:正则项系数的逆序,越大越过拟...原创 2018-04-10 13:45:51 · 8907 阅读 · 0 评论 -
随机森林,GBDT,XGBOOST三种集成算法的特点与对比
目前的集成学习方法大致分为两大类:即个体学习器之间存在强依赖关系、必须串行生成的序列化方法,以及个体学习器间不存在强依赖关系、可同时生成的并行化方法;前者的代表就是Boosting,后者的代表是Bagging和“随机森林”(Random Forest)。随机森林自助抽样,特征采样,无剪枝,投票,减小方差1,原理:提到随机森林,就不得不提Bagging,Bagging可以简单的理解为:放回抽样,多数...原创 2018-04-09 14:38:51 · 20224 阅读 · 0 评论 -
数据挖掘--异常检测总结
一、异常检测定义异常对象被称作离群点。异常检测也称偏差检测和例外挖掘。 二、常见的异常成因数据来源于不同的类(异常对象来自于一个与大多数数据对象源(类)不同的源(类)的思想),自然变异,以及数据测量或收集误差。 三、异常检测的方法(1)基于模型的技术:首先建立一个数据模型,异常是那些同模型不能完美拟合的对象;如果模型是簇的集合,则异常是不显著属于任何簇的对象;在使用回归模型时,异常是相对远离预测值...转载 2018-03-25 17:12:28 · 1831 阅读 · 0 评论 -
树模型中分裂特征选择标准--信息熵,信息增益,信息增益率的计算
1.熵:集和的熵值 -sum(pi * log(pi , 2))2.信息增益:集和的熵-按照特征a划分后子集的熵加权和(偏向类别数目多的属性) 3.信息增益率:信息增益/属性的熵(偏向类别数目少的属性)4.基尼值:1-集和各类别值的概率平方和(随机抽取两个样本其类别不一致的概率) 1 - sum(pi**2)5.基尼系数:按照属性a划分后各子集的加权基尼和ID3:判别式模型,分类树,多叉树,信息增...原创 2018-03-25 17:06:34 · 4798 阅读 · 0 评论 -
机器学习常用优化算法--梯度下降,牛顿法,共轭梯度法,拉格朗日乘数法
· 1. 梯度下降法(Gradient Descent)· 2. 牛顿法和拟牛顿法(Newton's method & Quasi-Newton Methods)· 3. 共轭梯度法(Conjugate Gradient)· 4. 启发式优化方法· 5. 解决约束优化问题——拉格朗日乘数法 1. 梯度下降法(Gradient Descent)梯度下降法是最早最简单,也是最为常用的最优化方法...转载 2018-03-25 16:53:01 · 1765 阅读 · 0 评论 -
数据挖掘-特征工程(特征挖掘)
什么是好?好的特征代表了灵活性、更简单的模型和更好的结果,不相关的特征则会影响模型的泛化性。因此特征选择和特征工程并非是互相排斥的,而是相辅相成的。有效的特征工程能够帮助我们提炼数据的代表。接着问题就来了,什么才是好的代表?代表的好坏取决于里面所包含信息的好坏。熵(Entropy,熵值越高,数据中所包含的信息越多),方差(Variance,方差越大,数据中所包含的信息越多),更好的分离映射(Pro...翻译 2018-03-25 16:50:58 · 7027 阅读 · 0 评论 -
NLP中关于文本分类问题的常用方案
NLP通常包括两个关键问题:1.选择什么样的语言模型?2.选择什么样的分类算法?第二个问题是机器学习领域的标准问题,各种针对不同数据类型、数据分布的算法和技巧,这里不再赘述。而在NLP当中,语言模型更加重要一些。不同语言模型的区别,也就是对文本提取特征的不同。常用的模型有:1.Bag-of-words:最原始的特征集,一个单词/分词就是一个特征。往往一个数据集就会有上万个特征;有一些简单的指标可以...原创 2018-03-25 16:50:04 · 4010 阅读 · 0 评论 -
python matplot美化+坐标轴范围设置等笔记
一.sklearn评估1.混淆矩阵 from sklearn.metrics import confusion_matrix confusion_matrix(testLabel,pre_label)2.大小类评估指标:精确率,召回率,f1得分 from sklearn.metrics import classification_report classification_report(tes...原创 2018-03-25 16:48:35 · 31616 阅读 · 2 评论 -
利用LDA分析《天龙八部》中每十回的话题演变情况
利用LDA分析《天龙八部》中每十回的话题演变情况原创 2017-11-24 10:40:35 · 1072 阅读 · 0 评论 -
数据挖掘一般流程
数据挖掘/数据分析一般流程/套路原创 2017-11-24 10:34:53 · 1220 阅读 · 0 评论 -
pandas中merage,join和concat
merage主要为横向连接,用于将多个dataframe通过某个相同的键合并为一个;concat可横向可纵向一.merage二.concat1).方法原型pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None, levels=None, nam原创 2016-10-10 15:03:01 · 8290 阅读 · 0 评论 -
python matplot绘图整理,中文显示,坐标轴,标记,柱状图
1. 中文标注windows+linuxplt.rcParams['font.sans-serif'] = ['SimHei'] # 步骤一(替换sans-serif字体)plt.rcParams['axes.unicode_minus'] = False # 步骤二(解决坐标轴负数的负号显示问题)Macfrom matplotlib.font_manager...原创 2019-01-18 14:33:55 · 12545 阅读 · 0 评论