自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

wheatJH的博客

数据分析

  • 博客(5)
  • 收藏
  • 关注

原创 从三个角度进行疫苗数据分析

背景介绍本文利用v2ex某程序员在Github上提供的数据,并自行搜集了一些省份的数据(当时数据还没更新T_T)。先用python对数据进行处理,最后数据涵盖了79家疫苗公司,88种疫苗和47种疫苗大类。再通过Tableau对数据进行可视化,从省份、疫苗公司和疫苗三个角度进行分析。在分析之前先对一些定义和度量值进行说明疫苗大类:以疫苗大类中的人用狂犬病疫苗为例,我会把该疫苗的不同种...

2018-08-01 14:37:21 3326

原创 Apriori、FP-Tree 关联规则算法学习

Apriori算法性质频繁项集的所有非空子集必须是频繁项集。支持度项集A、B同时发生的概率称为关联规则的支持度,也称相对支持度。置信度项集A发生,则项集B发生的概率称为关联规则的置信度。算法过程该算法根据最小支持度找出最大k项频繁集,再根据最小置信度,在频繁集中产生关联规则。找出最大k项频繁集扫描所有事务,事务中的每一项都是候选1项集C1的成员,计算每一项的支持度;对候选1项集C1中各项集的支持度...

2018-04-03 16:24:14 802

原创 ID3,C4.5,CART 决策树算法学习

ID3算法使用信息增益作为属性的选择标准,适用于离散的描述属性,且偏好于可取数目较多的属性。信息熵计算其中,pk代表第k类样本在D集合中所占的比重。信息熵越小,表示集合D的纯度越大。信息增益计算其中为集合D中某个属性的子集。根据所计算的信息增益,选取信息增益大的属性。C4.5算法在ID3算法的基础上,使用信息增益率作为属性的选择标准。该算法既能处理离散的描述属性,也能处理连续的描述属性,并且偏好于...

2018-04-02 20:49:00 267

原创 Python:棋盘覆盖问题

利用Python的tkinter库,实现棋盘覆盖的GUI界面import tkinter as tkclass chess: def __init__(self): window = tk.Tk() window.title('Chess') self.mark =0 self.cv = tk.Canvas(win...

2018-03-27 10:04:37 2723

原创 Learning: 利用Python进行数据分析 - MovieLens 数据集的探索

MovieLens 1M数据集含有来自6000名用户对4000部电影的100万条评分数据,分为三个表,movies、ratings、users数据处理通过pandas.read_table将各表转化为pandas 的DataFrame对象import pandas as pd#用户信息unames = ['user_id', 'gender', 'age' , 'occupation' , '...

2018-03-04 08:20:55 3768

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除