python机器学习之路
文章平均质量分 51
karmalk
不会造轮子的话,那就搬砖吧
即使是一个coder的命,那也要有成为programer的梦想。
展开
-
机器学习相关基础概念(基本术语)
机器学习主要任务是分类 机器学习算法有很多,最终决定使用某个机器学习算法进行分类首先要做的是算法训练 训练集:为算法输入的大量已分类数据 是用于训练及其学习算法的数据集合 训练集中有特征和目标变量 特征或者属性通常是训练样本集的列,他是独立测量的结果,多个特征联系在一起共同组成的一个训练样本。 目标变量:机器学习算法的预测结果。 机器学习的原创 2017-11-30 11:52:08 · 613 阅读 · 0 评论 -
特征归一化相关问题
为什么要对数值类型的特征做归一化常用的归一化方法线性函数归一化(原始数据线性变换,映射到[0,1]范围,)Xnorm=X−XminXmax−XminX_{norm} = \frac{X-X_{min}}{X_{max} - X_{min}}Xnorm=Xmax−XminX−XminX为原始数据,Xmax,XminX_{max},X_{min}Xmax,Xmin表示的是最大和...原创 2019-03-31 18:45:30 · 608 阅读 · 0 评论 -
Windows 7中为anaconda添加python2内核
创建Python2的虚拟环境打开anaconda prompt输入conda create -n py27 python=2.7会在anaconda 的 envs目录下创建此目录安装ipykernel在 anaconda prompt 里输入命令conda install --prefix=D:\anaconda\envs\py27 ipykernel激活Pytho...原创 2018-12-15 13:50:42 · 402 阅读 · 0 评论 -
sklearn 逻辑回归库的基本使用
1. 概述 在scikit-learn中,与逻辑回归有关的主要是这3个类。LogisticRegression, LogisticRegressionCV 和logistic_regression_path。其中LogisticRegression和LogisticRegressionCV的主要区别是LogisticRegressionCV使用了交叉验证来选择正则化系数C。而Logist...翻译 2018-08-09 23:39:48 · 1292 阅读 · 0 评论 -
scikit-learn Adaboost类库使用小结
1. Adaboost类库概述 scikit-learn中Adaboost类库比较直接,就是AdaBoostClassifier和AdaBoostRegressor两个,从名字就可以看出AdaBoostClassifier用于分类,AdaBoostRegressor用于回归。 AdaBoostClassifier使用了两种Adaboost分类算法的实现,SAMME和SAMME....转载 2018-08-09 23:36:24 · 794 阅读 · 1 评论 -
特征工程之特征选择
特征工程是数据分析中最耗时间和精力的一部分工作,它不像算法和模型那样是确定的步骤,更多是工程上的经验和权衡。因此没有统一的方法。这里只是对一些常用的方法做一个总结。本文关注于特征选择部分。后面还有两篇会关注于特征表达和特征预处理。1. 特征的来源 在做数据分析的时候,特征的来源一般有两块,一块是业务已经整理好各种特征数据,我们需要去找出适合我们问题需要的特征;另一块是我们从业务特征...转载 2018-08-09 23:25:47 · 591 阅读 · 0 评论 -
Windows 7安装后anaconda 命令行jupyter lab 出现404页面
jupyter serverextension enable --py jupyterlab --userconda install -c conda-forge nodejs原创 2018-05-24 22:10:06 · 2463 阅读 · 0 评论 -
MAC平台安装lightgbm遇到的各种坑
本来想着lightgbm跟其他Python第三方库一样,pip install 就行了,没想到Lightgbm没有这么简单。 首先还是看官方教程吧,主要也是按照官方教程上安装的 lightgbm安装教程然后,我是按照MPI版本安装的,MAC平台上不支持GPU版本以下是安装的命令:brew install open-mpibrew install cmake如果本机平台有安...原创 2018-05-19 16:00:26 · 4446 阅读 · 1 评论 -
Coursera吴恩达机器学习课程第一周测验2(单变量线性回归)
Machine Learning Week 1 Quiz 2 (Linear Regression with One Variable) Stanford CourseraQuestion 1Consider the problem of predicting how well a student does in her second year of college/university, give转载 2018-05-05 14:35:21 · 5839 阅读 · 4 评论 -
Coursera 吴恩达机器学习课程第一周测验
Quiz Question 1 A computer program is said to learn from experience E with respect to some task T and some performance measure P if its performance on T, as measured by P, improves with experience E.转载 2018-05-03 18:16:08 · 6323 阅读 · 4 评论 -
MAC OS(linux)平台安装xgboost的方法
pip install xgboost亲测会出现问题,所以不推荐使用pip安装conda install py-xgboost如果直接conda install xgboost 会提示找不到,所以使用py-xgboost没问题。命令行安装(官方安装教程)git clone --recursive http://github.com/dmlc/xgboostcd xgboost; cp make/m原创 2018-04-18 20:33:32 · 322 阅读 · 0 评论 -
MAC平台安装opencv并添加进去Python3中
首先要保证MAC上有安装homebrew 和cmake brew install xx 很方便 至于安装homebrew, 就一条命令ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)" 然后安装opencv也是一条命令brew install opencv安装成功原创 2017-12-25 17:45:37 · 4309 阅读 · 2 评论 -
Kaggle案例之泰坦尼克船员幸存预测(sklearn机器学习库)
无意间在网易云课堂上找了一个Kaggle案例,泰坦尼克获救船员预测,在此之前我是从没接触过kaggle,毕竟是刚入门的小白,看着视频,算是真正实战了一次,主要是在这个过程中学到了很多东西。 下面视频地址 http://study.163.com/course/courseLearn.htm?courseId=1003551009#/learn/video?lessonId=1004052093&原创 2017-12-24 14:37:07 · 8014 阅读 · 22 评论 -
《机器学习实战二》K近邻学习之手写数字识别及检测识别错误率
使用k-近邻的手写识别系统算法实现步骤收集数据准备数据分析数据训练数据测试算法使用算法首先还是按照书上的例子,将训练集和测试集下载到本地, 此次只是为了测试之前写的识别器的错误率,并没有实际对手写字体进行识别,不过看了学长的博客,也算是把识别的代码写了一些,把jpg格式的手写数字转换为txt格式的,其实就是求出图像相应灰度值,然后写上对应的asscii_char 01数字 如图原创 2017-12-13 20:07:04 · 1341 阅读 · 0 评论 -
<机器学习实战 >KNN算法 改进约会网站的配对效果
K-近邻算法 优点:精度高,对异常值不敏感,无数据输入假定 缺点:计算复杂度搞,空间复杂度高 适用范围:数值型和标称型 工作原理:存在一个样本数据集合(训练样本集),并且样本集中每个数据都有标签,即我们知道样本集中每以数据与所属分类的对应关系。 输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最为相似数据(最近邻)原创 2017-12-07 16:43:08 · 858 阅读 · 0 评论 -
熵,联合熵,条件熵,相对熵,互信息的定义
预备基础概念X : 随机变量x : 随机变量X的具体取值P(X) : 随机变量X的概率分布P(X,Y) : 随机变量X,Y的联合概率分布P(Y|X) : 已知随机变量X的情况下,随机变量Y的条件概率分布P(X=x) => p(x) : 随机变量取某个值的概率P(X=x,Y=y) => p(x,y) : 联合概率P(X=x|Y=y) =>p(y|x) : 条件...原创 2019-03-29 11:36:41 · 2763 阅读 · 0 评论