Python数据分析
文章平均质量分 88
努力的骆驼
一枚终身学习者
展开
-
小呆学数据分析——使用pandas中的merge函数进行数据集合并
数据集合并应用场景数据集合并在日常工作经常遇到,典型的如将两次具有不同调查项目的结果进行合并,或者将不同调查员的同样调查项目的内容进行合并。例子王小呆一天被交代一项任务,将公司从不同渠道拿到的两个资料本(一个电话本,一个是其他资料,其中姓名有重叠)整理成一个电话本交给营销部以便更好推销。于是小呆打开资料本A.csv、B.csv看了内容:资料本A:姓名手机号固话张晓...原创 2019-06-06 17:26:21 · 1295 阅读 · 0 评论 -
小呆学数据分析——House Prices房价预测
文章目录0. 问题1. 认识数据2.特征工程3.模型训练及预测0. 问题1. 认识数据2.特征工程3.模型训练及预测原创 2019-09-17 15:07:26 · 1451 阅读 · 0 评论 -
小呆学数据分析——Digit Recognizer字体识别
文章目录0. 问题1. 数据初步分析2. 第一轮学习2.1 数据标准化2.2 模型训练及预测2.2.1 第一次尝试2.2.1.1 k近邻法2.2.1.2 支持向量机0. 问题MNIST 数据集来自美国国家标准与技术研究所, National Institute of Standards and Technology (NIST). 训练集 (training set) 由来自 250 个不同人...原创 2019-09-11 15:11:21 · 515 阅读 · 0 评论 -
小呆学数据分析——Titanic disaster生存率预测
0. 问题:Survived from Titanic Disaster小呆听了小瓜讲了几天的课了,有点理解又有点理解不够深入,于是小瓜甩给小呆一道数据分析的题目,从Titanic Disaster逃难的项目练手以增加理解。项目数据摘自:Titanic: Machine Learning from Disaster注:https://www.kaggle.com 是一个Data Scienc...原创 2019-09-10 17:40:38 · 1033 阅读 · 0 评论 -
[数据挖掘之scikit-learn] sklean.neighbors分类器实例详解
文章目录概述3.1 sklearn.neighbors3.1.1 sklearn.neighbors.KNeighborsClassifier3.1.2 KNeighborsClassifier示例概述3.1 sklearn.neighbors3.1.1 sklearn.neighbors.KNeighborsClassifiersklearn.neighbors.KNeighborsCl...原创 2019-08-22 22:16:45 · 501 阅读 · 0 评论 -
[数据挖掘之scikit-learn] sklean.svm 分类器实例详解
文章目录1. sklearn.svm分类器1.1 sklearn.svm.SVC1.2 sklearn.svm.NuSVC1.3 sklearn.svm.LinearSVC1. sklearn.svm分类器sklearn库中的svm包是基于国立台湾大学林智仁(Lin Chih-Jen)教授团队开发的libsvm和linearsvm开源库开发的支持向量机包,里面包含多种支持向量机模型,如下表所示...原创 2019-08-16 21:32:48 · 3052 阅读 · 0 评论 -
[数据挖掘之scikit-learn] sklean.linear_model.LogisticRegression实例详解
文章目录概述5.1 sklearn.linear_model.LogisticRegression5.2 LogisticRegression示例概述逻辑回归是一种分类方法,原理详见小瓜讲机器学习——分类算法(一)logistic regression(逻辑回归)算法原理详解。5.1 sklearn.linear_model.LogisticRegressionsklearn.linear...原创 2019-08-23 17:31:57 · 3249 阅读 · 0 评论 -
[数据挖掘之scikit-learn] sklean.naive_bayes实例详解
文章目录2. sklearn.naive_bayes2.1 sklearn.naive_bayes.BernoulliNB2.2 sklearn.naive_bayes.GaussianNB2. sklearn.naive_bayes2.1 sklearn.naive_bayes.BernoulliNBsklearn.naive_bayes.BernoulliNB(alpha=1.0, bi...原创 2019-08-18 17:23:10 · 2197 阅读 · 0 评论 -
小瓜讲机器学习——聚类算法(一)K-Means算法原理Python代码实现
K-Means聚类算法1. K-Means聚类算法1.1 聚类算法概述1.2 K-Means算法原理1.2.1 相似性度量1.2.2 K-Means算法原理1.2.3 K-Means算法过程1.3 K-Means算法Python代码实现1. K-Means聚类算法1.1 聚类算法概述前面我们介绍的机器学习主要聚焦在分类算法,而且很重要的一个前提条件(或者说输入)是训练样本都是已有类别标签了...原创 2019-07-25 17:38:41 · 843 阅读 · 0 评论 -
小瓜讲机器学习——聚类算法(二)Mean Shift算法原理及Python代码实现
2. Mean Shift算法原理2.1 核函数估计2.2 Mean Shift向量2.3 Mean Shift算法原理(由概率密度函数导出)对于某一ddd维聚类问题,其实存在对应ddd维特征空间上概率密度函数f(X=(x1,...,xd))f(X=(x_1,...,x_d))f(X=(x1,...,xd)),mmm个训练样本就是ddd维特征空间内的采样点。那么概率密度函数的核函数估计...原创 2019-07-25 14:43:33 · 2002 阅读 · 1 评论 -
小瓜讲机器学习——聚类算法(三)DBSCAN算法原理及Python代码实现
3. DBSCAN算法3.1 样本点类别定义样本点X(i)X^{(i)}X(i)的ϵ\epsilonϵ邻域如下:dist(X,X(i))≤ϵdist(X,X^{(i)})\le\epsilondist(X,X(i))≤ϵ那么定义密度为样本点X(i)X^{(i)}X(i)的ϵ\epsilonϵ邻域的样本个数,如下所示Nξ(X(i))={X(j)∣dist(X(j),X(i))≤ϵ}N_\x...原创 2019-07-25 11:19:01 · 1815 阅读 · 0 评论 -
小瓜讲机器学习——分类算法(五)决策树算法原理及Python代码实现
5. 决策树5.1 决策树模型原理5.2 决策树算法① 特征选择问题(节点选择)特征是描述问题的维度,比如判断瓜甜不甜,可能判断基于瓜的颜色,瓜的根蒂,瓜的敲声等,这一些都是描述问题的维度,都是瓜甜不甜的问题的特征。对于一个决策树模型,首先要问当然是怎么选择特征作为树节点?然后怎么在这个特征下划分子集呢,判断分叉的方法是什么呢?② 信息熵信息论中用熵的概念来度量随机变量的不确定性,设...原创 2019-07-16 19:12:24 · 367 阅读 · 0 评论 -
小瓜讲机器学习——分类算法(四)K近邻法算法原理及Python代码实现
4.K近邻法的算法原理分类问题的K近邻法算法原理本质其实很简明,就是计算与预测点“距离”最近K个已知点(训练样本),通过统筹这些点的类别,决定预测点的应该分到哪一类中去。用数学语言来定义,即如下所述。K近邻算法:输入:训练样本T(X,Z)={(X(1),Z(1)),(X(2),Z(2)),...,(X(n),Z(n))}T(X, Z)=\{(X^{(1)},Z^{(1)}),(X^{(2)...原创 2019-07-15 17:49:22 · 512 阅读 · 2 评论 -
小瓜讲机器学习——分类算法(二)支持向量机(SVM)算法原理详解
2.支持向量机(SVM)算法原理还以逻辑回归分类算法中图1.1的二分类问题为例,大家肯定发现了其实超平面存在很多个超平面,都能把十字点和⚪点分隔开,如下图。超平面Ω1、Ω2、Ω3...\Omega_1、\Omega_2、\Omega_3...Ω1、Ω2、Ω3...都能将图中的点分割开,那么Ω1、Ω2、Ω3...\Omega_1、\Omega_2、\Omega_3...Ω1、Ω2、Ω...原创 2019-06-18 01:40:36 · 2318 阅读 · 0 评论 -
小瓜讲机器学习——分类算法(三)朴素贝叶斯法(naive Bayes)算法原理及Python代码实现
3.朴素贝叶斯分类算法原理朴素贝叶斯分类算法主要是基于概率模型建立的分类算法。假设对于某分类问题,描述问题的特征向量为X=(x1,...,xl)X=(x_1,...,x_l)X=(x1,...,xl),标签为Z=(z1,...,zm)Z=(z_1,...,z_m)Z=(z1,...,zm)...原创 2019-07-15 18:34:34 · 1509 阅读 · 0 评论 -
小瓜讲数据分析——数据可视化工程(matplotlib库使用基础篇)
0.数据可视化工程的应用场景数据可视化工程应用在各种场景中,比如总公司让分公司做年终汇报的时候得看到分公司销售每个月趋势图以了解分公司业务发展,美国总统选举得看到抽样调查结果分布图以了解哪些族群是支持者哪些族群是可以争取的,气象局得看到实时的气流动态图以确定台风通过时各地的气象状态,每年双十一的时候阿里巴巴演播室内实时显示的电商数据以展现哪些地方是热购人群分布地等等。总之,数据可视化工程帮助我...原创 2019-06-13 15:28:33 · 615 阅读 · 0 评论 -
小呆学数据分析——使用pandas中的concat函数进行数据集堆叠
数据集合并应用场景在上一节中数据集合并主要为了补充完善调查对象的各种特征,以便能够更加有效的利用调查形成的对象人格。这一节中主要探讨数据集合并中的另一种应用场景,比如在学校里面高三每个月都有月考,制作历次月考中前50名的考生和考分的表格等。例子小呆被交代一项任务,刚刚拿到今年上半年的洗发露前五名,领导分析和去年下半年的前五名做成一张表格,交上来。小呆打开营销部门发来的201906_sale...原创 2019-06-06 19:30:12 · 1630 阅读 · 0 评论 -
深度挖掘——共享单车需求分析
1. 共享单车数据分析从某处下载到某市的共享单车部分数据,见链接:https://github.com/Suddennebbus/Python/blob/master/sharebike.csv。现在我们就来挖掘一下什么因素是影响共享单车的租车需求,再进一步预测未来共享单车的租车量。1.1 共享单车数据初步认识import pandas as pdsharebikes_data = pd....原创 2019-10-08 18:38:21 · 2745 阅读 · 0 评论