数据分析
文章平均质量分 85
guang_mang
故事的开头总是这样,适逢其会,猝不及防。故事的结局总是这样,花开两朵,天各一方
展开
-
Python做全国房价分析——经纬度的转换
现在正在学习使用Python来做数据分析挖掘,先做了一些小的案例,最近做了一个全国各地的房价分析,首先我先是爬取了安居客上面的所有的全国房价的地址,房价,大概五万条数据,因为想以热力图的形式展现朱来+原创 2017-05-03 15:56:58 · 3109 阅读 · 0 评论 -
泰坦尼克号生存预测(python)
生存预测泰坦尼克号生存预测是kaggle上面对于初级机器学习者比较适合的用来练习的比赛,本人现在想学习一些特征工程之类相关的只是,所以就是看了一下kaggle上面的大佬展示出来的notebook,有些理解与你们共享,互相学习数据集说明首先我们在学习之前要来看一下就是这个我们要学习的数据集,对于这个数据,然后来看作者是要进行怎样的操作,他是怎么操作,学习一下思路特征工原创 2017-09-25 19:45:00 · 5789 阅读 · 1 评论 -
sklearn预处理
本文总结的是我们大家在python中常见的数据预处理方法,以下通过sklearn的preprocessing模块来介绍;1. 标准化(Standardization or Mean Removal and Variance Scaling)变换后各维特征有0均值,单位方差。也叫z-score规范化(零均值规范化)。计算方式是将特征值减去均值,除以标准差。sklearn.preprocessing.转载 2017-09-17 19:55:24 · 603 阅读 · 1 评论 -
随机森林(python)
什么是随机森林随机 森林 是 几乎 任何 预测 问题 (甚至 非直线 部分) 的固有 选择 。 它是 一个 相对较 新 的 机器学习 的 策略 ( 在 90 年代产生于 贝尔 实验室 ) 和 它 可以 几乎用于 任何方面 。 它 属于 机器 学习 算法 一大类----- 集成学习 方法 。集成学习集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生原创 2017-09-01 19:53:55 · 3240 阅读 · 2 评论 -
决策树算法Python代码实现
决策树的学习:目前是想学习用Python语言来实现算法从而来进行数据挖掘和分析,数据挖掘分析是要求一个数据库,掌握一门语言,和一些必要的算法,目前刚刚开始学习,其实看似很高大上的数据挖掘,也没有那么难,希望来这里的朋友都有所收获,共勉决策树就是通过一种树结构来把这个对象的参数具体的分类,从而更直观的理解,一般是通过信息熵的来依次往下分类,信息熵点这里# coding:utf-8f原创 2017-03-21 14:37:02 · 3437 阅读 · 0 评论 -
pandas做数据的清洗
转换之后的经纬度的数据出现很多的问题,重复,特殊值,,,所以我就是做了一个简单的清洗使用 Python里面的pandas。#coding:utf8import pandas as pdimport numpy as np# import csvdf = pd.read_csv(r'D:\MobileFile\fangjia2.csv', encoding='gbk')#读取房价原创 2017-05-05 19:29:15 · 1464 阅读 · 0 评论 -
heatmap.js调用百度地图api做热力图
做热力图使用heatmap.js模块然后就是来挑用百度地图api是他展现在百度地图上面一首先你要申请一个百度地图api接口的密钥申请网址申请密钥之后,先登录上自己的账号然后创建应用三就是来取一个应用名称,服务,类型全都不用动,ip白名单校验请设置为0.0.0.0/0,然后查看应用,把访问应用的AK码填入下面的代码里面var points里面填入自己的经纬度原创 2017-05-05 19:37:37 · 34975 阅读 · 9 评论 -
《机器学习实战》-kNN算法手写算法识别
通过观看机器学习实战这本书,有了些许读后感,下面是我理解这本书里面的KNN算法,希望阔以帮助你们稍微加强一下理解数据集代码下载KNN算法其实就是邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。也就是说离你最近的k个点中,大多数点属于原创 2017-05-08 20:28:03 · 796 阅读 · 0 评论 -
信息增益以及决策树算法-机器学习实战(python)
信息增益:信息熵和条件熵的差值就是信息增益,主要含义是指期望信息或者信息上的有效减少量,根据他来 确定在什么样的层次上选择什么样的变量来分类。计算过程我通过一个例子来展现出来现在 还没有划分数据集,计算信息熵按照公式为Entropy(S)=-9/14*log2(9\14)-9/14*log2(9\14)当Wind固定为Weak时:记录有8条,其中yes为6个,NO为2个原创 2017-05-09 21:01:26 · 3629 阅读 · 0 评论 -
朴素贝叶斯算法解析-机器学习实战(python)
一、朴素贝叶斯算法详解朴素贝叶斯算法的关键就是这个朴素贝叶斯公式朴素贝叶斯算法适用于文本分类,最后是要知道,这个文本属于每一个类别的概率,属于哪一个类别的概率最大,就是属于那个类别所以现在y是类别标签是下面的classVec,x是他的特征属性,就是下面的postingList,这个公式的精华在于假设每个属性之间是相互独立的所以才有了下面的公式 二 、算法的实际原创 2017-05-22 21:22:11 · 582 阅读 · 0 评论 -
关于xgboost安装在anaconda上面(python3.6,64位,windows10)
xgboost安装教程首先要在这里吐槽一下各种博客上面的安装xgboost的包的安装解说,是要安装git和mingw各种操作,各种解析,但是到我这里试了一天,就是下载不下来,搞得我好烦躁安装anacondaanaconda里面自带有python版本点击下载,你可以自由选择,在这里不多说1、安装xgboost首先这个包下载点击打开链接,里面找到你想用的匹配你的python原创 2017-09-21 17:01:34 · 643 阅读 · 0 评论