机器学习之Python语言基础
文章平均质量分 52
鲁鲁酱1996
菜鸟进化中!!!!
展开
-
Numpy 函数库基础
打开anaconda prompt(base) C:\Users\LLJiang>pythonPython 2.7.14 |Anaconda custom (64-bit)| (default, Oct 15 2017, 03:34:40) [MSC v.1500 64 bit (AMD64)] on win32Type "help", "copyright", "credits" or "li原创 2018-01-08 12:22:54 · 343 阅读 · 0 评论 -
数据分析师养成之路之python偏:(画AUC和混淆矩阵)
画AUC和混淆矩阵 代码如下:准备数据,构造模型:from sklearn import datasetsimport numpy as npfrom sklearn.model_selection import StratifiedKFoldfrom sklearn import linear_modelfrom sklearn.metrics import roc_curv...原创 2018-08-09 11:40:57 · 1606 阅读 · 0 评论 -
数据分析师养成之路之python篇(从头学习机器学习之逻辑回归)
Logistic回归: 要实现分类,如二分类,我们需要得到的结果是 0,1,即y(x)=0,或y(x)=1,要如何实现这样的效果呢? 单位阶跃函数可以帮助我们实现! 单位阶跃函数: 自变量大于0时,函数值为1; 自变量小于0时,函数值为0(自变量为0时,函数值不做要求) 1.Heaviside step function(海维塞德阶跃函数): 如上图,该函数在跳跃点x=0上,函数...原创 2018-08-04 18:03:18 · 461 阅读 · 0 评论 -
数据分析师养成之路之python篇:(keras 中 roc和混淆矩阵)
本篇主要集中实现 roc和混淆矩阵(至于模型,这里随便建了一个(知道是个模型就好,当然太low,最后实现的效果也不太好),但,这里重点是除模型以外的内容) 陈述至此,开始进入正题—请看代码! 导入所有用到的包from keras.datasets import cifar10from keras.layers import Input, Dense, Dropout, Activatio...原创 2018-08-09 17:04:32 · 5594 阅读 · 0 评论 -
数据分析师养成之路之keras篇(sklearn 与keras结合实现调参)
keras 调参(姑且这么叫) 参考网址: http://www.cnblogs.com/surfzjy/p/6445404.html 话不多说,上代码: 导包:from keras.datasets import cifar10from keras.layers import Input, Dense, Dropout, Activation, Flattenfrom keras...原创 2018-08-09 20:08:10 · 1748 阅读 · 0 评论 -
数据分析师养成之路之python(机器学习-决策树(完整))
ID3: C4.5 CARTID3实现: C4.5实现 CART实现sklearn下实现SVM: 各种核函数含义及 sklearn下 实现 Apriori实现 Apriori sklearn下实现集成算法FP-growth 算法 PCA算法 SVD应用 map Reduce HIVE HBASE...原创 2018-08-14 18:07:09 · 400 阅读 · 0 评论 -
集成算法小结
bagging算法: 自助抽样样本, T个弱学习器中选择投票数最高的(分类) T个弱学习器分别得到的回归结果进行算术平均得到的值(回归)random forest: bagging算法进化 自助抽样,弱学习器:cart树 随机选择样本特征,增加泛化能力 T个弱学习器中选择投票数最高的(分类) T个弱学习器分别得到的回归结果进行算术平均得到的值(回归) ...原创 2018-08-30 15:46:44 · 2434 阅读 · 0 评论 -
数据分析师养成之路之keras篇:fine-tune学习小结
fine-tune学习小结: 大佬博客链接:https://www.cnblogs.com/andre-ma/p/8676186.htmla.数据集小,和原数据集相似: <5000 -不采取fine-tune,使用预训练网络做特征提取器(高层特征可使用) b.数据集大,和原数据集相似: >10000 -可以fine-tune整个网络 c.数据集小...原创 2018-07-20 17:05:39 · 3069 阅读 · 0 评论 -
数据分析师养成之路之keras篇:提取bottleneck
提取bottleneck小结: 提取bottleneck的时候,遇到了一个大坑,flatten()那里的size貌似总也改不对 后来重新思考,我要做什么?提取bottleneck 特征啊,仅仅是提取特征而已,我为什么要compile, 为什么要fit?model再经过compile和fit 后,再进行predict,得到的是y_pred,而不是我要的bottleneck 了,所以,compi...原创 2018-07-20 15:39:33 · 868 阅读 · 0 评论 -
数据分析师养成之路之keras篇:保存,载入模型笔记
保存模型:model.save('...model.h5') 载入模型:from keras.models import load_modelmodel = load_model('...model.h5')#loss,accuracy = model.evaluate(x_test,y_test)保存参数,载入参数model.save_weights('......原创 2018-07-28 15:37:34 · 383 阅读 · 0 评论 -
k-近邻算法(预)
步骤1:准备,使用python导入数据创建kNN.py文件,代码如下: 注意格式!注意格式!注意格式!#numpy为科学计算包from numpy import *#operator为运算符模块,提供排序操作的函数import operatordef createDataSet(): group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])原创 2018-01-09 12:46:13 · 257 阅读 · 0 评论 -
数据分析师养成之路--python实战分类案例2(如何调参,选择模型等)
对the Breast Cancer Wisconsin dataset进行分类1.准备数据-载入数据,pd.read_csv.. -其中的label,有’M’和‘B’两个值,我们需要标记为数值型from sklearn.preprocessing import LabelEncoderle=LabelEncoder()y=le.fit_transform(y)#这里,原来的...原创 2018-06-20 22:21:32 · 1595 阅读 · 0 评论 -
数据分析师养成之路——成长笔记1,计划
以后我会更新或添加以下内容:1.tableau的实战内容2.原创 2018-06-19 15:21:22 · 508 阅读 · 0 评论 -
数据分析师养成之路--python实战分类案例1
数据预处理与特征工程代码提要如下,具体输出信息不予展示imoprt pandas as pddata=pd.read_csv('D:\Tianic\Train.csv')data.info()data.describe()以上数据共有12个变量 数值变量7个:int64(PassengerID,Survived,Pclass,SibSp,Parch)–891 ...原创 2018-06-20 10:51:47 · 849 阅读 · 0 评论 -
数据分析师养成之路之keras篇,添加auc,costtime
每个epoch显示结果中添加auc,costtime 以下代码,显示结果中添加了auc,acc,costtime,当然这几个参数也可以写在callbacks中for epoch in range(10): starttime=time.time() #注意,这里也可以是fit_generate,不过要保证epochs=1 model.fit(train_data,tr...原创 2018-07-23 11:38:19 · 1814 阅读 · 0 评论 -
数据分析师养成之路之keras:(Modelcheckpoint,交叉验证等实现篇)
1.数据集的划分和打乱: 主要学习一下,permutation的使用方法,代码简单,这里不多讲解data=np.load(open('/home/LLwang/桌面/wang/bottle_train.npy','rb'))train_labels=fold1train_generator.classesy=utils.to_categorical(train_labels,2)per...原创 2018-07-23 14:40:27 · 5847 阅读 · 2 评论 -
数据分析师养成之路之python:从头学习机器学习(预)
机器学习? 就是把无序数据转换成有用的信息(例如,尿布湿和啤酒) 机器学习的主要任务是 1.分类,2.回归 如何分类? 要想分类,我们需要学习如何分类,即让机器通过算法来分类 怎么实现?回归同分类 输入:样本集合(训练集=n个训练样本,每个训练样本=特征*m+目标变量(分类中:标称型,回归中:连续型) 算法通过输入的样本集合,发现特征和目标变量间的关系(y(目标变量)=kx+b(...原创 2018-07-23 15:53:50 · 280 阅读 · 0 评论 -
数据分析师养成之路之python:从头学习机器学习(KNN_1)
实现kNN分类算法: 快速理解kNN分类算法: 如上图,绿色圆即为我们要预测的样本,K=3时,即距离绿色圆最近的3个样本(最内圈内) 中,2个红色三角,1个蓝色方框,2&gt;1,所以我们判定绿色圆为红色三角 算法:[距离–排序–取k–求概率–选类别] 1.计算要预测的样本点 和 其他点的距离(已知类别) 2.得到的距离按照从小到大排...原创 2018-07-23 18:04:51 · 633 阅读 · 0 评论 -
数据分析师养成之路之Python篇:从头学习机器学习之决策树(预)
引言: 上一节我们实现了k近邻算法,它可以给出很多分类任务,但是,它无法解释数据中所蕴含的信息(我们预测某个样本点,只找它附近的k个点,看它们分别属于哪个类别,从而断定这个样本点就属于该类别,(即所谓的物以类聚),但是我们不知道,预测的样本点在属性上为什么属于该类别?比如在K近邻中,把鸭子和鸟是划为一个类别,它所给出的解释是,因为鸭子周围大部分都是鸟,这种解释,太过于牵强,我们期待的解释是,因为...原创 2018-07-24 11:10:35 · 247 阅读 · 0 评论 -
数据分析师养成之路之python篇:从头学习机器学习(决策树(熵,信息增益,创建树的代码实现))
python实现 熵 对上节课的简单回顾:实体为人,他有很多属性,长相,身高…. 信息: 属性的特征 :长相(属性): 很帅(特征) 熵: (包含所有的属性的信息(特征): 身高:很高,长相:很帅,经济:很有钱) 对它进行求熵 条件熵: 某个属性的信息(特征),求熵(如:身高(属性):很高(特征)) 信息增益:熵 -条件熵 : 即为某个属性的信息增益注:笔者是按’实体-属性-特...原创 2018-07-27 13:28:45 · 407 阅读 · 0 评论 -
数据分析师养成之路---keras实现自己的数据集
数据准备: 建立几个文件夹(处于方便起见), 用于训练,测试的文件夹(training,testing)(当然也可以留一部分专门用于验证的文件夹(vassidation),这里,验证和测试放一起了) 然后创建training,testing的子文件夹,A,B,这两个子文件夹是类别(A,B两类,多类的话,A,B,C…) 成如下效果: traing/A traing/B testing/...原创 2018-07-19 10:22:39 · 3316 阅读 · 1 评论 -
数据分析师养成之路---keras中笔记(上,下采样,数据增强部分)
上采样: 有两类样本(A,B),A>B数量,若n*B=A(约等于),则B样本数据变为:n*B,A样本数据为:Adef upperSample(df) df.index=range(len(df)) df_A=df[df['class']=='A'] df_B=df[df['class']=='B'] len_A=len(df_A) len_B=l...原创 2018-07-19 11:58:21 · 3856 阅读 · 1 评论 -
数据分析师养成之路--keras学习中metrics和callbacks笔记
complie中的metrics参数model.compile(...metrics=['accuracy'])如上, metrics中有两个arguments,y_true,和y_pred 它所接收的评估指标为,损失函数,(mse等)和准确率(accuracy等),它们都作用于训练集和验证集(eg: loss:..acc..mae .. val_loss:..val_a...原创 2018-07-19 17:52:24 · 9040 阅读 · 0 评论