数据分析
yangxuejunwinner
励志成为一名优秀的大数据分析师!
展开
-
如何成为数据分析师
如何成为数据分析师转自知乎 握的技能:统计学基础 常用理论模型R和PYTHON网页分析数据库技术实战应用著作权归作者所有。 商业转载请联系作者获得授权,非商业转载请注明出处。 作者:卡牌大师 链接:https://www.zhihu.com/question/29265587/answer/44010658 来源:知乎第一阶段:初识数据分析这个阶段是你学习数据分析的第一个月。转载 2015-12-28 21:29:45 · 899 阅读 · 0 评论 -
【机器学习实战】决策树预测Titanic遇难者生还情况
一、导入数据#导入pandas用于数据分析import pandas as pd#利用pandas的read_csv模块直接从互联网手机泰坦尼克号乘客数据titanic = pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt')#观察前几行数据titanic.head()二、分析数原创 2017-03-05 11:49:38 · 7714 阅读 · 0 评论 -
机器学习 --- 分类算法模型评估
一、 ROC曲线1. 混淆矩阵针对二分类问题,将实例分成正类(postive)或者负类(negative)。但是实际中分类时,会出现四种情况. (1)若一个实例是正类并且被预测为正类,即为真正类(True Postive TP) (2)若一个实例是正类,但是被预测成为负类,即为假负类(False Negative FN) (3)若一个实例是负类,但是被预测成为正类,即为假正类(False Po原创 2016-11-15 15:30:31 · 3411 阅读 · 0 评论 -
机器学习算法 -- 集成学习
一、关于集成学习的概念1.集成学习概念集成学习是机器学习中一个非常重要且热门的分支,是用多个弱分类器构成一个强分类器,其哲学思想是“三个臭皮匠赛过诸葛亮”。一般的弱分类器可以由决策树,神经网络,贝叶斯分类器,K-近邻等构成。已经有学者理论上证明了集成学习的思想是可以提高分类器的性能的,比如说统计上的原因,计算上的原因以及表示上的原因。2. 为什么要集成1)模型选择 假设各弱分类器间具有一定差异性(原创 2016-11-15 15:15:16 · 5972 阅读 · 1 评论 -
【CSDN学院视频】以性别预测为例,谈谈数据挖掘中常见的分类算法
一、数据挖掘概念1.数据挖掘工程师数据挖掘工程师 = 大数据工程师 + 算法工程师2.数据挖掘主要任务1) Prediction Tasks 预测性任务 Use some variables to predict unknown or future values of other variables 2) Description Tasks 描述性任务 Find human-interpret原创 2016-11-14 16:13:05 · 2443 阅读 · 0 评论 -
【机器学习算法】 决策树ID3,C4.5
一、决策树基本概念及算法优缺点1.什么是决策树分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点有两种类型:内部结点和叶结点。内部结点表示一个特征或属性,叶结点表示一个类。 决策树(Decision Tree),又称判定树,是一种以树结构(包括二叉树和多叉树)形式来表达的预测分析模型。原创 2016-11-13 21:56:19 · 4612 阅读 · 2 评论 -
机器学习算法--逻辑回归原理介绍
本博文针对逻辑回归的原理进行了介绍:逻辑回归就是这样的一个过程:面对一个回归或者分类问题,建立代价函数,然后通过优化方法迭代求解出最优的模型参数,然后测试验证我们这个求解的模型的好坏。Logistic回归虽然名字里带“回归”,但是它实际上是一种分类方法,主要用于两分类问题(即输出只有两种,分别代表两个类别)回归模型中,y是一个定性变量,比如y=0或1,logistic方法主要应用于研究某些事件发生的概率原创 2016-11-13 11:23:00 · 130987 阅读 · 7 评论 -
机器学习算法 --- 用Python原生码实现Logistic回归
Sigmoid函数 Sigmoid函数的输入记为z,由下面公式得出: 梯度上升法(有的也叫做梯度下降法,只是符号不一样) Python Logistic代码from numpy import *#打开文本文件并逐行读取,x0=1,每行前两个值为x1,x2,第三个值是数据对应的类别标签def loadDataSet(): dataMat = []; labelMat = []原创 2016-07-31 20:33:48 · 921 阅读 · 0 评论 -
R语言学习1--基本操作及创建数据集
一、R基本操作1、创建一个名为x的变量,它包含5个来自标准正态分布的随机误差; eg、x<-norm(5) 2、赋值 age<-c(1,3,5,2,11,9,3,9,12,3)3、求平均数mean(weight)4、求标准差sd(weight)5、求相关系数cor(age,weight)6、绘制曲线plot(age,weight)7、查看当前目录> getwd()[1] "C:/Users/原创 2016-02-26 18:20:16 · 1541 阅读 · 0 评论 -
机器学习算法----KNN K近邻
一、机器学习基础1、机器学习的主要任务是分类,另一项任务是回归 2、目标变量是机器学习算法的预测结果 分类 算法: 目标变量–标称型 回归算法: 目标变量–连续性 3、两套独立的样本集:训练数据和测试数据二、K-近邻算法(KNN)工作原理: python代码# -*- coding: cp936 -*-"""Created on Sun Jul 31 11:13原创 2016-07-31 15:33:42 · 458 阅读 · 0 评论 -
机器学习案例1---A journey through Titanic
// 1.Imports 引入Python库// pandasimport pandas as pdfrom pandas import Series,DataFrame//#2. numpy,matplotlib,seabornimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns #数据可视化模块原创 2016-09-22 14:25:45 · 2001 阅读 · 0 评论 -
Scikit-learn Cookbook (二) --- Classifying Data with scikit-learn
Doing Basic classifications with Decision Trees原创 2016-11-16 14:06:39 · 854 阅读 · 0 评论 -
Scikit-learn Cookbook (一) --- Premodel Workflow
一、通过datasets获取数据datasets ▪ 小型数据 — 存在于sklearn package中 — run datasets.load_* ▪ 大型数据 — must be fetched boston = datasets.load_boston() print(boston.DESCR) #数据集简要描述 housing = datase原创 2016-11-15 22:16:25 · 730 阅读 · 0 评论 -
机器学习 -- 模型集成与调优
一、数据集介绍1. 样本介绍本数据集为患者乳腺癌患病检测样本,共有569个,它的前两列为唯一的ID号和诊断结果(M= malignant,B=benign),它的3-> 32列为实数值特征。2. 读入数据,查看样本import pandas as pddf=pd.read_csv('http://archive.ics.uci.edu/ml/machine-learning-databases/b原创 2016-11-06 09:32:09 · 2525 阅读 · 1 评论 -
数据分析六部曲
一、数据分析六部曲1、明确分析目的和思路; 2、数据收集; 3、将收集回来的数据进行处理; 4、根据分析目的和思路进行数据分析; 5、将分析出的结果通过图表的方式展现出来; 6、撰写数据分析报告。二、数据分析方法论1、数据分析方法论 主要用来指导数据分析师进行一次完整的数据分析,更多的是指数据分析思路,比如主要熊哪几方面开展数据分析?各方面包含什么内容和指标?2、数据分析方法论—–宏观角原创 2016-01-17 16:26:37 · 2340 阅读 · 0 评论 -
【机器学习实战】网格搜索--贝叶斯新闻文本分类器调优
#对文本分类的朴素贝叶斯模型的超参数组合进行网格搜索#从sklearn.datasets中导入20类新闻文本抓取器from sklearn.datasets import fetch_20newsgroupsimport numpy as np#抓取新闻数据news=fetch_20newsgroups(subset='all')#数据集分割from sklearn.cross_valid原创 2017-03-12 13:57:07 · 2177 阅读 · 0 评论