数据分析
文章平均质量分 63
Danker01
挑战不可能
展开
-
数据分析方法论和数据分析方法
如何理解数据分析的方法论问题?首先,数据分析方法论就如同国家的方针政策,指导和决策我们分析的方向。从宏观角度知道如何进行数据分析,就像是一个数据分析的前期规划,知道着后期数据分析工作的开展。数据分析法则就是指具体的分析方法,例如我们常见的对比分析、交叉分析、相关性分析、回归分析、聚类分析等数据分析法,数据分析法则是从微观角度指导我们如何进行数据分析。那么,数据分析方法论的作用有什么呢?...原创 2019-05-17 08:29:32 · 3410 阅读 · 0 评论 -
VarianceThreshold
最近在数据的与处理中遇到了VarianceThreshold操作,这是sklearn.feature_selection,就是数据特征值选择,为什么会有这种操作呢,其实这是在进行数据分析之前的一种数据预处理作业,以为我们遇到的数据是复杂多变的,有可能会存在很多个特征值,但是并不是每一个特征值都能很好的体现区分度,那么这样的特征值就不存在分析的价值了。假设某特征的特征值只有0和1,并且在所有输入...原创 2018-09-28 17:19:06 · 17588 阅读 · 8 评论 -
监督学习和无监督学习
自理解机器学习的概念时,没有深刻理解监督学习和无监督学习的区别,在网上查找了部分资料,现在总结如下:总的来说,机器学习任务将根据训练样本是否有label,可以分为监督学习和无监督学习,这是最简单直接的区别。那么问题来了,什么是label呢,简单的讲字面意思是标签,实际的作用就是对数据的一种标注,就是学习时我们标注的target值。如果样本带有label,就可以知道学习的结果到底是什么,而无la...原创 2018-09-28 17:00:55 · 13889 阅读 · 1 评论 -
TF-IDF的算法原理
预处理过程中,我们已经把停词都过滤掉了。如果只考虑剩下的有实际意义的词,前我们已经讲过,显然词频(TF,Term Frequency)较高的词之于一篇文章来说可能是更为重要的词(也就是潜在的关键词)。但这样又会遇到了另一个问题,我们可能发现在上面例子中,madefortv、california、includ 都出现了2次(madefortv其实是原文中的made-for-TV,因为我们所选分词法的...原创 2018-09-28 15:40:25 · 840 阅读 · 0 评论 -
机器学习模块总结
Sklearn 是基于Python的机器学习工具模块。里面主要包含了6大模块:分类、回归、聚类、降维、模型选择、预处理。根据Sklearn 官方文档资料,下面将各个模块中常用的模型函数总结出来。1. 回归及分类(监督学习)1.1 广义线性模型 (fromsklearn import linear_model)最小二乘法:拟合一个线性模型, 使得数据集实际观测...原创 2018-09-28 10:28:05 · 588 阅读 · 0 评论 -
机器学习分类思想
分类思想:机器分类就是通过分析数据,找出属于不同类别的特征值的规律(或者范围),然后检测需要评判的值更接近于那个类别(只是更接近于,在数据上的体现就是代表评判对象特征值的一组向量与类别(向量组)之间的最小距离),选取最优解。分类和线性回归类似,都只能预测而不能十分的断定,通俗的将也是存在一定的概率问题。这里是一个简单的实例,就是通过分析鸢尾花的三个亚种的花萼和花瓣的特征值,形成三...原创 2018-09-27 22:19:52 · 451 阅读 · 0 评论 -
线性回归数据分析
进入机器学习阶段后第一次接触线性回归,感觉线性回归其实就是通过有限的离散型数据,找到一条直线,使得尽可能多的离散点,分布在线附近的区域(理想状态是所有的点都在线上,但是一般是无法满足的),以此来预测出现在未知位置的点的分布情况,从而预测出你要评估的目标值。首先,什么是回归, 回归分析研究的是多个变量之间的关系。它是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这...原创 2018-09-27 21:59:34 · 15212 阅读 · 0 评论 -
决策树
df=pd.read_csv('Titanic.csv')#泰坦尼克号成活率分析和预测def Titanic_pre(): #准备数据 df=pd.read_csv('Titanic.csv') #选取操作字段 df1=df[['Pclass','Sex','Age','SibSp','Parch','Fare','Embarked']] #补充NAN...原创 2018-09-27 21:36:15 · 141 阅读 · 0 评论 -
pyecharts简单使用示例
pyecharts 相对matplotlib库生成图像更加美观,方便,可以增加各种动态效果,显示效果多样,比较建议学习一下。这里做几个常用简单的实例:from pyecharts import WordCloud,Pie,Bar,EffectScatter,Gauge,Line,Grid,Timelineimport randomfrom pyecharts import Wo...原创 2018-09-21 15:46:20 · 8631 阅读 · 3 评论 -
pandas
pandas中索引的使用定义一个pandas的DataFrame对像import pandas as pddata = pd.DataFrame({'A':[1,2,3],'B':[4,5,6],'C':[7,8,9]},index=["a","b","c"])data A B Ca 1 4 7b 2 5 8c 3 6 9...原创 2018-09-20 11:27:52 · 167 阅读 · 0 评论 -
简单分析班级成绩模型
name_dict={0:'数学',1:'语文',2:'英语',3:'化学',4:'物理',5:'体育'}#初始化一个类class CourseDesc(object): def __init__(self): self.name='' self.std=0 self.mean=0 self.max=0 ...原创 2018-09-19 11:16:49 · 2522 阅读 · 0 评论 -
matplotlib 库图像不显示问题
刚开始接触maplotlib,安装之后第一次简单运行后发现,图像不显示,总结出现问题的原因分为以下几点,仅供参考:import matplotlib.pyplot as pltplt.axis([0,5,0,20])plt.title('my first plot')plt.plot([1,2,3,4],[1,4,9,16],'ro')这里是简单的生成图像的操作,运行之后发现图像并...原创 2018-09-18 21:18:56 · 10174 阅读 · 2 评论 -
matplotlib简单操作
import matplotlib.pyplot as plt#下面三行解决中文字的显示问题from pylab import *mpl.rcParams['font.sans-serif'] = ['SimHei']mpl.rcParams['axes.unicode_minus'] = False#设置生成的图片的大小plt.rcParams['figure.figsize']...原创 2018-09-18 20:59:00 · 230 阅读 · 0 评论 -
数据分析源码
最近在看数据分析有关的书籍,书里用到的数据文件及源码在github上找到了,在这里和大家共享一下。。。。里面只有两本书的, 所以如果不是你想要得,请你见谅!可以根据英文书名和文件夹名对应找到你要的那本书的文件链接: https://pan.baidu.com/s/1MIF9qnFDmAnsqA8nGNXucg 密码: 823s...原创 2018-09-10 19:58:37 · 2559 阅读 · 0 评论 -
比例和比率的区别
数据分析中可能会出现比例和比率的区别:举个例子:全班人数50人,男生30,女生20,那男生的比例就是30/50,同理女生的就是20/50,那么男女的比率是什么呢,是30/20对,就是这个区别。...原创 2019-05-22 10:06:54 · 34392 阅读 · 3 评论 -
cannot index with vector containing NA / NaN values
关于这个小问题,其实是pandas使用中经常出现的问题。具体原因就是在dataframe里面nan是一个特殊的存在,因为你的数据里包含nan或者inf类型的数据类型,所以你在对这一数据进行处理时,就会出现标题上出现的错误。怎么解决呢?方法也是有很多的,这里举一个简单的方法,但是绝对不是最科学的方法,df['近期销量']=df['近期销量'].replace(np.nan,'0').a...原创 2019-07-10 14:58:52 · 10977 阅读 · 0 评论 -
pandas 中delete、drop函数的用法
这两个函数是数据处理是比较常用的函数,在这里重点总结一下,为了方便自己的记忆。也可以和大家一起做一下分享首先看一下drop函数DataFrame.drop(labels=None,axis=0,index=None,columns=None,level=None,inplace=False,errors='raise')这是drop函数的所有参数labels是指要删除的...原创 2019-07-10 15:57:49 · 89542 阅读 · 6 评论 -
pandas 获取不符合条件/不包含某个字符串的dataframe
工作中数据的处理中往往会遇到筛选出不符合条件的或者不包含某个字符的dataframe,我们会如何去做呢?可能你会想到用python写一个函数,然后用panda的apply函数或者map函数来进行处理,不可否认这是一中方法,但是实际上pandas中已经给我们开发了这样的函数,那我们为什么不直接调用呢?首先看一下,怎么筛选出包含某些字符串的数据#这是使用语法,模糊匹配df[ df['通...原创 2019-07-10 16:26:51 · 47040 阅读 · 3 评论 -
召回率
在做支持向量机的数据分析时,打印了一下classification_report报告结果如下: precision recall f1-score support 0 0.92 1.00 0.96 35 1 0.96 0.98 0.97 54...原创 2018-09-29 17:57:46 · 6797 阅读 · 0 评论 -
双精度和单精度
双精度比单精度表示的位数大 精确的位数多,简单地说, foat表示的小数点位数少,double能表示的小数点位数多!如 float: 1.0001 double:1.0000000001Float为单精度,内存中占4个字节,有效数位是7位(因为有正负,所以不是8位),在我的电脑且VC++6.0平台中默认显示是6位有效数字;double为双精度,占8个字节,有效数位是16位,Float ...原创 2018-10-04 11:02:07 · 9977 阅读 · 0 评论 -
如何做好数据分析
首先,我们要明确数据分析的概念和含义,清楚地理解什么是数据分析;什么是数据分析呢,浅层面讲就是通过数据,查找其中蕴含的能够反映现实状况的规律。专业一点讲:数据分析就是适当的统计分析方法对收集来的大量数据进行分析,将他们加以汇总、理解和消化,以求最大化的开发数据的功能,发挥数据的作用。那么,我们做数据 分析的目的是什么呢?事实上,数据分析就是为了提取有用的信息和形成结论而对数据加以详...原创 2019-04-30 12:02:18 · 3999 阅读 · 0 评论 -
决策树
机器学习中决策数算法算是比较常见的分类和回归算法之一,但是我们在怎么来理解决策树的算法呢?接下来我们从以下几点做一下学习和总结:首先,什么是决策树?决策树 决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。构建决策树采用贪心算法,只考虑当前纯度差最大的情况作为分割点。常见的决策树算法有C4.5、ID3和CART。其...原创 2018-11-21 19:15:06 · 1099 阅读 · 0 评论 -
数据分析之数据质量分析
数据分析的前提就是数据的质量,一个好的数据质量才是数据分析可靠性的必要保障。今天就来讨论一下数据质量的分析:数据质量分析的主要任务就是检查数据中是否存在脏数据,脏数据一般是指不符合要求以及不能直接进行相关分析的数据。脏数据包括以下内容:1、缺省值2、异常值3、不一致的值4、重复数据以及含有特殊符号(如#、¥、*)的数据第一点:缺失值分析首先来看一下缺失值是指怎么产生的:...原创 2018-11-19 11:03:35 · 6206 阅读 · 0 评论 -
随机森林
一直在找随机森林的理解文档,今天发现一个挺不错的,这里分享给大家阅读目录1 什么是随机森林? 2 随机森林的特点 3 随机森林的相关基础知识 4 随机森林的生成 5 袋外错误率(oob error) 6 随机森林工作原理解释的一个简单例子 7 随机森林的Python实现 8 参考内容回到顶部1 什么是随机森林? 作为新兴起的、高度灵活的一种机器学习算法,随机森林(...转载 2018-11-18 20:38:40 · 650 阅读 · 0 评论 -
数据结构、python实现
1.数据结构:线性表和链表、堆栈和队列、树和二叉树、图、字典和集合、B树、哈希表线性表包括数组和链表线性表是最常用且最简单的一种数据结构,它是n个数据元素的有限序列。实现线性表的方式一般有两种,一种是使用数组存储线性表的元素,即用一组连续的存储单元依次存储线性表的数据元素。另一种是使用链表存储线性表的元素,即用一组任意的存储单元存储线性表的数据元素(存储单元可以是连续的,也可以是不连续...转载 2018-11-13 10:52:38 · 239 阅读 · 0 评论 -
kNN算法总结
一直接触KNN近邻算法,但是一直没有机会系统的总结一下,现在做一下总结,希望加深一下自己对近邻算法的理解。定义:K-近邻算法采用测量不同特征值之间的距离方法进行分类优缺点:优点:精度高、对异常值不敏感(个别的异常值不会影响分析结果)、无数据输入假定缺点:计算复杂度高(需要计算新的数据点与样本集中每个数据的“距离”,以判断是否是前k个邻居),空间复杂度高(巨大的矩阵);使用数据范...原创 2018-10-31 14:56:21 · 4168 阅读 · 0 评论 -
随机森林分类RandomForestClassifier 梯度提升决策树分类GradientBoostingClassifier 预测泰坦尼克号幸存者
python3 学习使用随机森林分类器 梯度提升决策树分类 的api,并将他们和单一决策树预测结果做出对比附上我的git,欢迎大家来参考我其他分类器的代码:https://github.com/linyi0604/MachineLearning首先,了解一下决策树的优缺点:决策树与其他分类算法相比的优缺点优点:1.直观,决策树可以提供可视化,便于理解;2.适用于...原创 2018-10-09 09:31:38 · 1729 阅读 · 0 评论 -
特征归一化处理
介绍机器学习中,提取某个样本特征的过程,叫特征工程。同一个样本,可能具备不同类型的特征,各特征的数值大小范围不一致。所谓特征归一化,就是将不同类型的特征数值大小变为一致的过程。举例:假设有4个样本及他们的特征如下样本 特征1 特征2 1 10001 2 2 16020 4 3 12008 6 4 13131 ...原创 2018-10-06 15:13:58 · 5024 阅读 · 0 评论 -
fit_transform 和transform
敲《Python机器学习及实践》上的code的时候,对于数据预处理中涉及到的fit_transform()函数和transform()函数之间的区别很模糊,查阅了很多资料,这里整理一下:涉及到这两个函数的代码如下: # 从sklearn.preprocessing导入StandardScaler from sklearn.preprocessing import Standar...原创 2018-10-06 11:37:20 · 506 阅读 · 0 评论 -
协方差
标准差和方差一般是用来描述一维数据的,这是我们已经掌握的内容,但现实生活我们常常遇到含有多维数据的数据集,最简单的大家上学时免不了要统计多个学科的考试成绩。面对这样的数据集,我们当然可以按照每一维独立的计算其方差,但是通常我们还想了解更多,比如,一个男孩子的猥琐程度跟他受女孩子欢迎程度是否存在一些联系啊,嘿嘿~协方差就是这样一种用来度量两个随机变量关系的统计量,我们可以仿照方差的定义:来...原创 2018-10-06 10:33:44 · 1190 阅读 · 0 评论 -
过拟合和欠拟合
开始我是很难弄懂什么是过拟合,什么是欠拟合以及造成两者的各自原因以及相应的解决办法,学习了一段时间机器学习和深度学习后,分享下自己的观点,方便初学者能很好很形象地理解上面的问题。无论在机器学习还是深度学习建模当中都可能会遇到两种最常见结果,一种叫过拟合(over-fitting )另外一种叫欠拟合(under-fitting)。首先谈谈什么是过拟合呢?什么又是欠拟合呢?网上很直接的图片理解...转载 2018-10-06 10:23:35 · 46362 阅读 · 2 评论 -
数据拟合
机器学习中避免不了的会接触到数据拟合的概念,那么什么是数据拟合呢?数据拟合又称曲线拟合,俗称拉曲线,是一种把现有数据透过数学方法来代入一条数式的表示方式。科学和工程问题可以通过诸如采样、实验等方法获得若干离散的数据,根据这些数据,我们往往希望得到一个连续的函数(也就是曲线)或者更加密集的离散方程与已知数据相吻合,这过程就叫做拟合(fitting)。下面是我做的一个数据拟合的操作,且不论我用...原创 2018-10-06 10:07:56 · 18798 阅读 · 0 评论 -
KNN算法思考
学习机器学习时,我们可能接触到KNN算法,这是一中间的算法,是利用距离来表征两者之间的相似度。这一算法最经典的应用就是给相似人群做推荐系统。这里对算法内容不做详细解释,只是引发两个疑问,和大家一起思考一下。首先,假设,这是一个电影平台,如果你是Netflix用户,Netflix将不断提醒你:多给电影评分吧,你评论的电影越多,给你的推荐就越准确。现在你明白了其中的原因:你评论的电影越多,Netf...原创 2018-10-05 15:33:18 · 344 阅读 · 1 评论 -
归一化处理方法
数据归一化问题是数据挖掘中特征向量表达时的重要问题,当不同的特征成列在一起的时候,由于特征本身表达方式的原因而导致在绝对数值上的小数据被大数据“吃掉”的情况,这个时候我们需要做的就是对抽取出来的features vector进行归一化处理,以保证每个特征被分类器平等对待。下面我描述几种常见的Normalization Method,并提供相应的python实现(其实很简单):1、(0,1)标准...原创 2018-10-05 15:28:22 · 100287 阅读 · 3 评论 -
python代码实现狄克斯特拉算法
狄克斯特拉算法找最短路径问题:之前我们了解过,用广度优先搜索,找出段数最少的路径,但是要找出最快的路径该怎么做呢,为此我们可以用现在提到的算法,狄克斯特拉算法。我们知道,狄克斯特拉算的辅助图形必须是有向无环加权图,这也就决定了该算法的使用条件。那什么是有向无环加权图呢?下面举个例子说明一下另外,值得注意的是:狄克斯特拉算法同样不适用于含有负权边的图,即是,图上的数字不能为负值。...原创 2018-10-05 09:37:30 · 1258 阅读 · 1 评论 -
快速排序
在整理排序问题中,看到了快速排序这种算法,其整体的思想是,在要排序的数列里找出一个基准值,然后形成比基准值大和比基准值小的两种情况,也就生成了子数组,然后对这两个子数组进行快速排序,再将所得结果拼接到一起。下面是快速排序的代码。def quicksort(array): if len(array) < 2: --------->单个数组时直接返回(...原创 2018-10-04 14:36:18 · 103 阅读 · 0 评论 -
计算机存储简单理解
计算机的存储大体上分为两种类型:数组和链表,但是各有利弊,很难说哪一个更优越数组:数组存储,所有的数据都会在一起,数据类型必须一致,知道其中一个就能根据地址推理出其他的,读取不必按照顺序,所以读写速度很快,但是因为要为增加的数据预留内存空间,所以会造成内存的浪费。读写操作较多时,可以采用这种各类型。插入和删除中间的某一个数据时,其后面的数据存储都会跟着发生变动,存储内存不足时,整个数组都有可能...原创 2018-10-04 11:18:22 · 337 阅读 · 0 评论 -
权重确定方法
我们做数据分析的时候可往往会遇到权重问题,那我们该采用什么样的方法来确定权重呢?方法其实有很多,比如专家访谈法、德德尔菲法,层次分析法、主成分分析法、因子分析法、回归分析法等,这些方法都较为复杂,操作起来也相对困难,这里介绍一种简单的权重确定方法,即目标优化矩阵表目标优化矩阵的工作原理就是把人脑的模糊思维,简化为计算机的1/0式逻辑思维,最后得出量化的结果,这种方法不仅量化准确,而且简单、...原创 2019-07-17 10:38:56 · 17525 阅读 · 3 评论