机器学习
masbbx123
这个作者很懒,什么都没留下…
展开
-
使用python手算一元线性回归
根据一元线性回归的公式,自己计算#coding=utf-8import pandas as pdfrom pandas import Series,DataFrame import randomimport numpy as npimport warningswarnings.filterwarnings("ignore")# training datax_train = [2, 2原创 2018-01-03 19:04:23 · 1472 阅读 · 0 评论 -
统计手机品牌的市场占有率
首先在kaggle上得到一组数据,https://www.kaggle.com/c/talkingdata-mobile-user-demographics,比赛是2016年开始,所以数据估计是2015左右的。 直接下载phone_brand_device_model.csv.zip,然后统计每个手机品牌出现的次数的比例,作为市场占有率,最后绘制柱状图:#coding=utf-8import p原创 2018-02-23 11:50:09 · 4050 阅读 · 0 评论 -
matlab粒子群算法例子
matlab上使用粒子群算法求函数的最大值: 函数:f(x, y) = x*cos(2*pi*y) + y*sin(2*pi*x) -2≤x≤2,-2≤y≤2%% I. 清空环境clcclear%% II. 绘制目标函数曲线figure[x,y] = meshgrid(-2:0.1:2,-2:0.1:2);z = x*cos(2*pi*y) + y*sin(2*pi*x);mes原创 2018-02-22 14:25:42 · 12520 阅读 · 4 评论 -
python xgboost分析婚外情几率
最近刚刚学习到xgboost,据说效果杠杠的,神器啊 这里是一个使用的小例子: 1 我用的是Anaconda,先安装xgboost 2 数据集:(课程作业,我也不知道这个数据集哪里来的) 数据集Affairs.csv,取自于1969年《今日心理》(Psychology Today)所做 的一个非常有代表性的调查,而Greene(2003)和Fair(1978)都对它进行过分析。该数据从60原创 2018-02-07 12:01:50 · 1402 阅读 · 0 评论 -
Kaggle中Titanic项目简单入门
首先,再kaggle注册帐号,找到Titanic项目,9659个队伍,估计全部都是菜鸟: 下载train和test集,提交的文件: 首先,二话不说,先把下载的《gender_submission.csv》直接提交上去: 这样,我们就得到了第一个成绩:0.76555,还行,好歹比2xxx多个队伍强。 再看看说明,最终评价的标准是ACC 下面开始正式干活了: 先导入各种库,读取训原创 2018-02-11 17:06:19 · 3687 阅读 · 1 评论 -
Gini,信息熵,分类误差的2个题目
题目一: 我的答案:a) 男有10个,女有10个,所以,如果要计算性别的Gini值的话,根据Gini值公式: 1-(10/20)* (10/20)-(10/20)* (10/20)=0.5 b)按照车型多路划分: 家用 运动 豪华 C0 1 8 1 C1 3 0 7 根据Gini值公式: 家用的Gini=1-(1/4)* (1/4)-(3/4)*原创 2018-02-05 22:41:47 · 4178 阅读 · 0 评论 -
使用opencv默认的hog行人检测器来检测视频中的行人
opencv中有训练好的hog行人检测器,可以直接用来做行人检测,下面是代码:#include "stdafx.h"#include <opencv2/core/core.hpp> #include "opencv2/opencv.hpp"#include "opencv2/imgproc/imgproc.hpp"#include <opencv2/highgui/highgui.hpp>原创 2018-02-11 10:07:30 · 4032 阅读 · 0 评论 -
matlab中使用随机森林对鸢尾花数据集分类
%% I. 清空环境变量clear allclcwarning off%% II. 导入数据load iris_data.mat%%% 1. 随机产生训练集/测试集a = randperm(150);P_train = features(a(1:120),:);P_test = features(a(121:end),:);T_train = classes(a(1:120),原创 2018-01-29 14:10:00 · 9000 阅读 · 11 评论 -
matlab使用遗传算法找函数极值
使用遗传算法寻找函数极值%% I. 清空环境变量clear allclc%% II. 绘制函数曲面xx = -2:0.01:2;yy = -2:0.01:2;[x,y] = meshgrid(xx,yy);z = x*cos(2*pi*y) + y*sin(2*pi*x) ;mesh(x,y,z)shading interpxlabel('x');ylabel('y');zlabel原创 2018-02-05 13:14:28 · 5007 阅读 · 1 评论 -
python中使用k-means对鸢尾花数据集聚类
代码和结果:import matplotlib.pyplot as plt import numpy as np from sklearn.cluster import KMeansfrom sklearn import datasets X = iris.data[:, 2:4] ##表示我们只取特征空间中的后两个维度print(X.shape)#绘制数据分布图plt.scat原创 2018-01-27 23:02:00 · 30063 阅读 · 3 评论 -
彻底搞懂softmax、逻辑回归
1 使用Tensorflow对minist进行分类,使用最简单的softmax,下面是代码:import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_datafrom datetime import datetimeimport mathimport time#载入数据集mnist = inp原创 2018-01-09 13:57:42 · 3270 阅读 · 3 评论 -
python中使用DBSCAN对国家数据集聚类
#coding=utf-8import pandas as pdimport matplotlib.pyplot as plt import numpy as np from sklearn.cluster import KMeansfrom sklearn import datasetsfrom sklearn.cluster import DBSCAN from sklear原创 2018-01-31 22:27:21 · 4786 阅读 · 1 评论 -
使用opencv的adaboost训练自己的分类器
1 首先准备好正样本:(这里我们训练的头部分类器) 2 将正样本统一到固定尺寸 这里我使用python实现,python读取文件夹还没有用过,直接先手动操作: 打开命令行,进入正样本文件夹中,输入:dir /b >pos.txt这样就在正样本文件夹中生成了pos.txt,记录了所有的文件名: 直接在ue中打开,切换到16进制模式,选择替换,将0D 0A替换为2C 0D 0A 保原创 2018-01-30 15:26:56 · 2117 阅读 · 0 评论 -
cifar10数据读取
cifar10数据地址:http://www.cs.toronto.edu/~kriz/cifar.html,上面有详细介绍。 我使用的是bin格式的数据: 数据格式为:标签(1字节)+图像数据(32*32*3) 读取代码如下: unsigned char FileData[30730000*5]; FILE* fp; unsigned char* p;原创 2018-01-15 17:10:44 · 561 阅读 · 0 评论 -
matlab中使用SVM
1 下载libsvm的源码 2 在matlab中编译 先输入:mex -setup选择编译器 再直接输入make编译 3 使用例子:%% I. 清空环境变量clear allclc%% II. 导入数据load iris_data.mat%%% 1. 随机产生训练集和测试集n = randperm(size(features,1));%%% 2. 训练集——120个样本t原创 2018-01-15 13:11:48 · 6381 阅读 · 1 评论 -
kaggle House Prices项目
House Prices项目可是麻烦, 首先一样的,先读取数据:#coding=utf-8import pandas as pdfrom pandas import Series,DataFrame import randomimport numpy as npfrom datetime import dateimport datetime as dtfrom numpy impor原创 2018-02-22 10:49:28 · 657 阅读 · 0 评论