自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

cbright的博客

一个机械汪自学python的道路足迹

  • 博客(10)
  • 收藏
  • 关注

原创 根据ID3算法给出游玩的决策树的实战案例

这里我们有以下关于是否游玩的数据集,数据如下:编号温度天气游玩1高晴是1高阴是1中晴否1中阴否接下来我们将根据ID3算法,给出这个案例的决策树。考虑如何构造是否游玩的决策树,显示将哪个属性(温度、天气)作为根节点是个关键问题,在这里先介绍两个指标:纯度和信息熵。先说纯度,决策树的构造过程可以理解为寻找纯净划分的过程。举...

2019-07-31 16:55:26 1328

原创 使用map()快速实现数据转化

以下介绍了使用map()快速实现数据转化的方法,最后将处理好的数据保存为csv文件。import pandas as pd# 定义了一个书类的DataFrame,含有两列数据分别是书名和价钱books = pd.DataFrame({'书名':['Python编程从入门到实践','Python学习手册','流畅的Python','利用Python进行数据分析','Python编程快速上手...

2019-07-21 17:24:28 1243

原创 爬取《三十六骑》豆瓣上短评内容和平均打分

下面的代码是最近练习爬虫的小项目,具体内容为爬取《三十六骑》豆瓣上第一页短评内容和平均打分以下是代码内容:# -*- coding:utf-8 -*-"""爬取《三十六骑》豆瓣上第一页短评内容和平均打分@author:Cbright"""import requests as reqfrom bs4 import BeautifulSoupimport resum = 0r ...

2019-08-07 14:10:21 293

原创 在Python里使用SQL语句操作Pandas

pandasql可以在Python中运行SQL,对于那些想在Python里使用SQL语句的人来说,pandasql提供了这种方法。1.安装pandasql安装pandasql的方法非常简单,你只需要在你的Shell中键入pip install -U pandasql,即pip install -U pandasql2. pandasql中的主要函数是sqldf,它接受两个参数,一个便是S...

2019-07-28 19:37:44 3788

原创 SQL查询操作的一些具体使用案例(即SELECT和WHERE的组合使用)

从表中选取数据时,需要使用SELECT,SELECT语句是SQL语言中使用最多的最基本的语句。同时,为了找出符合我们条件的数据,我们需要使用WHERE子句来添加条件。基本的SELECT 语句:SELECT <列名>,······FROM <表名>;我们先来创建一个表CREATE TABLE books(name CHAR(100) NOT NULL,...

2019-07-27 15:34:14 920

原创 pandas中stack()和unstack()

stack()含义:该操作会将列中数据透视到行参数说明:# 参数DataFrame.stack(self,level = -1,dropna = True )#参数说明level: 默认为-1,即列索引的最后一级dropna: 布尔值,默认为True,即是否删除具有缺失值的行示例:# 我们创建一个多级列的列子来说明stack()import pandas as pdimp...

2019-07-24 22:22:33 2599

原创 Python中pandas库的sort_index、set_index和reser_index的用法

sort_values含义:sort_values()函数,可以将数据集依照某个字段中的数据进行排序,该函数即可根据指定列数据也可根据指定行的数据排序。参数说明:# 参数DataFrame.sort_values(by,axis = 0,ascending = True,inplace = False,kind =' quicksort ',na_position ='last' )#...

2019-07-23 10:56:48 2602 1

原创 利用pandas检测和过滤异常值

利用pandas检测和过滤异常值在数据清洗过程中,我们经常需要对数据进行检测和过滤异常值。以下是用pandas实现的方法案例分析:假设我们有某学校学生成绩的数据,学校有ABCD四个班,每个班100名学生,我们需要检测这些数据有没有异常代码示例:import numpy as npimport pandas as pd# 这里我们先随机生成400名学生的成绩data = pd.Dat...

2019-07-22 15:06:05 4917

原创 利用pd.cut()和pd.qcut()对数据进行分箱操作

使用cut()和qcut()对数据进行分箱操作1.cut()可以实现类似于对成绩进行优良统计的功能,来看代码示例。假如我们有一组学生成绩,我们需要将这些成绩分为不及格(0-59)、及格(60-70)、良(71-85)、优(86-100)这几组。这时候可以用到cut()import numpy as npimport pandas as pd# 我们先给 scores传入30个从0到1...

2019-07-21 21:52:23 6563 1

原创 筛选DataFrame缺失值

DataFrame下dropna()代码示例1.默认情况下,dropna()会删除包含缺失值的行 #这种情况下,其实是drop(axis=0,how=‘any’)data = pd.DataFrame([[1,6.5,3],[1,None,None], [None,None,None],[None,6.5,3]])cleaned = data....

2019-07-21 12:06:45 1435

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除