2018年02月_Wang Guo

原创使用skflow内置的LR，DNN，Scikit-learn中的集成回归模型对“美国波士顿房价”进行预测

话不多说，直接上代码1 代码实现及结果截图、#coding:utf-8#使用skflow内置的LR，DNN，Scikit-learn中的集成回归模型对“美国波士顿房价”进行预测from sklearn import datasets,metrics,preprocessing,cross_validation#读取数据boston=datasets.load_boston()#获取房价数据特征及对...

2018-02-12 00:18:45 1897 2

原创使用Tensorflow自定义一个线性分类器对‘良/恶性乳腺癌肿瘤’进行预测

1 Tensorflow作为一个开源框架，在深度学习与机器学习方面有着很大的应用。对于Tensorflw就不作介绍，仅仅对其应用简单的实现一下利用tensorflow自定义一个线性分类器对‘良/恶性乳腺癌肿瘤’进行预测2 代码实现及结果截图#coding:utf-8#使用tensorflow自定义一个线性分类器对‘良/恶性乳腺癌肿瘤’进行预测import tensorflow as tfim...

2018-02-12 00:12:47 1354

原创模型正则化之欠拟合和过拟合

1 拟合是指机器学习模型在训练的过程中，通过更新参数，使得模型不断契合可观测数据的过程数据集：比萨饼直径和价格数据通过线性回归模型，2次多项式回归模型，4次多项式回归模型的预测性能分析，来理解拟合过程；并针对所存在的问题，使用L1范数正则化，L2范数正则化进行改进后的性能测试。2 实验代码及结果截图#coding:utf-8#比萨饼价格预测#输入训练样本的特征及目标值x_train=[...

2018-02-08 20:24:11 402

原创特征提升之特征筛选

1 特征筛选数据集：Titanic数据集；通过特征筛选来寻找最佳的特征组合，并且达到提高预测准确性的目标2 实验代码及结果截图#coding:utf-8#数据导入import pandas as pd titanic=pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pu...

2018-02-08 19:33:27 632

原创特征提升之特征提取-基于文本数据的DictVectorizer，TfidfVectorizer在去掉停用词和不去停用词条件下的分析

1 特征提取：逐条将原始数据转化为特征向量的形式，其中涉及到数据特征的量化表示实验数据：字典存储数据2 实验代码及结果截图#coding:utf-8#导入朴素贝叶斯模型from sklearn.naive_bayes import MultinomialNBfrom sklearn.metrics import classification_report#导入新闻文本数

2018-02-07 19:43:41 3464 3

原创无监督学习之特征降维-主成分分析

1 特征降维是无监督学习的应用之一，主成分分析是最为经典和实用的特征将维技术，尤其是在辅助图像识别方面实验数据：手写体数字图像全集数据2 实验代码及结果截图#coding:utf-8import numpy as np import pandas as pd #读取训练数据和测试数据digits_train=pd.read_csv('https://a

2018-02-07 19:28:31 1970

原创 K均值算法

1 K均值算法 K-means算法是最为经典,易用的数据聚类模型；该算法要求我们预先设定聚类的数量，然后通过迭代更新聚类中心，最后让所有数据点到其所属聚类中心距离的平方和趋于稳定。算法执行：随机布设K个特征空间点作为初始的聚类中心根据每个数据的特征向量，从K个聚类中心寻找距离最近的一个，并将此数据标记为从属于这个聚类中心在所有的数据都被标记过聚类中心

2018-02-05 21:03:24 2273

原创支持向量机，K近邻模型，回归树在不同配置下的性能比较

1 延续上一篇，还是采用美国波士顿房价测试数据，对支持向量机，K近邻模型以及回归树采用不同的参数配置，进行同一模型在不同配置下的回归预测性能的评估2 实验代码及结果截图#导入数据读取器from sklearn.datasets import load_boston boston=load_boston()#数据分割from sklearn.cross_validatio

2018-02-04 22:49:16 1448

原创 Python实践-itchat获取微信好友头像并进行矩形拼接

1 反正吧，小编也是刚学习，自从发现了itchat之后，就总想捣鼓点什么东西，这不，就想到了这个实例进行实践操作2 实验代码#coding:utf-8#爬取微信好友头像并进行拼接import itchatimport mathimport PIL.Image as Imageimport os#登录itchat.auto_login(True)#获取好友信息friends...

2018-02-03 22:55:18 2752

原创 Python实践-itchat获取微信好友总人数以及男女比例

1 itchat是微信的个人开放接口；本文利用Python+itchat实现简单的个人好友数量以及男女比例的统计 itchat 的安装：pip install itchat(需要权限的可以使用sudo)2 实验代码以及结果截图#coding=utf-8import itchat,timeitchat.login()#微信好友男女比例分析friends=itchat.get_f...

2018-02-03 22:18:34 2657

原创 LinearRegression模型与SGDRegressor模型的性能比较

本文是以《Python机器学习及实践从零开始通往kaggle竞赛之路》为参考书籍进行的实践1 LinearRegression模型与SGDRegressor模型的性能比较利用对数据处理的结果进行性能的比较；数据源为：美国波士顿地区房价数据2 实验代码及结果截图#coding:utf-8#导入数据读取器from sklearn.datasets import lo

2018-02-02 21:26:00 3510

原创朴素贝叶斯模型

本文是以《Python机器学习及实践从零开始通往kaggle竞赛之路》为参考书籍进行的实践1 朴素贝叶斯模型构造基础是贝叶斯理论，单独考量每一维度特征被分类的条概率，进而综合这些所概率对其所在的特征向量做出分类预测。其主要应用于文本分类。2 实验代码及结果截图#coding:utf-8#从sklearn.datasets中导入新闻数据抓取器fetch_20news

2018-02-01 22:14:02 740

原创 K近邻模型

本文是以《Python机器学习及实践从零开始通往kaggle竞赛之路》为参考书籍进行的实践1 利用K近邻模型对生物物种进行分类，使用Iris数据集2 实验代码以结果截图#coding:utf-8#K近邻模型#读取Iris数据集细节资料#导入iris数据加载器from sklearn.datasets import load_iris #读取数据并存

2018-02-01 22:07:48 1178

原创支持向量机分类器

1 支持向量机分类器根据训练样本的分布，搜索所有可能的线性分类器中最佳的那个。本文是利用支持向量机进行手写体数字图像的分类任务。2 实验代码及结果截图#coding:utf-8#支持向量机分类器#手写体数据读取#从slearn.datasets里导入手写数字加载器from sklearn.datasets import load_digits

2018-02-01 22:00:00 3855

原创泰坦尼克号上的乘客是否生还的预测分析

1 本文是以《Python机器学习及实践从零开始通往kaggle竞赛之路》为参考书籍进行的实践通过随机分类模型以及XGBoost模型进行泰坦尼克号上的乘客是否生还的预测分析2 实验代码以及结果截图#coding:utf-8#泰坦尼克号上的乘客是否生还的预测能力import pandas as pd from sklearn.ensemble import RandomFo

2018-02-01 21:48:20 1063

原创良/恶性乳腺癌肿瘤预测---线性分析

1 线性分类器介绍：假设特征与分类结果存在线性关系的模型；通过累加计算每个维度的特征与各自权重的乘积帮助类别决策。2 实验代码及截图#coding:utf-8import pandas as pd import numpy as np #创建特征列表column_names=['samples code number','Clump Thickness','U

2018-02-01 16:13:08 1579

King_key的博客