自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

原创 matplotlib【7】--树地图

用可视化的方法来表达离散变量的数值情况,不仅仅可以使用条形图、饼图、热力图,我们还可以借助于树地图来完成。树地图的思想就是通过方块的面积来表示,面积越大,其代表的值就越大,反之亦然。在Python中,可以借助于squarify包来绘制,即squarify.plot函数。首先,我们来看一下这个函数的语法及参数含义:squarify.plot(sizes, norm_x=...

2018-10-13 22:12:32 2209

原创 matplotlib【6】--散点图

#matplotlib模块没有装封好的雷达图命令,但是pygal模块提供了更加简单的雷达图函数import pygal#调用Radar这个类,并设置雷达图的填充,及数据范围radar_chart=pygal.Radar(fill=True,range=(0,5))#添加雷达图的标题radar_chart.title='活动前后员工状态表现'#添加雷达图各顶点的含义radar_cha...

2018-10-13 22:07:12 258

原创 matplotlib【5】--散点图

可以将折线图绘制到散点图中。散点图可以反映两个变量间的相关关系,即如果存在相关关系的话,它们之间是正向的线性关系还是反向的线性关系?甚至于是非线性关系?plt.scatter()plt.scatter(x, y, s=20, c=None, marker='o', cmap=None, norm=None, vmin...

2018-10-13 21:47:05 435

原创 matplotlib【4】--折线图

经济走势图、销售波动图、PV监控图用折线图plt.hist()但好像一直都会用plt.plot()函数应用plt.hist(x,y,linestyle, linewidth,color,marker, markersize,markeredgecolor, markerfactcolor,label,alpha)x:指定折线图的x轴数据;...

2018-10-13 21:35:53 489

原创 matplotlib【3】--箱线图

箱线图一般用来展现数据的分布(如上下四分位值、中位数等),同时,也可以用箱线图来反映数据的异常情况。饼图函数:plt.boxplot()boxplot函数设置:plt.boxplot(x, notch=None, sym=None, vert=None, whis=None, positions=None, widths=None, p...

2018-10-13 21:08:21 3465

原创 python数据清洗(总结版)-思维导图

数据清洗是数据预处理的重要组成部分,也是耗时间最长的一部分,因此根本多篇文章总结脑图便于自己梳理清楚数据清洗的处理步骤,由此知道数据清洗该如何下手。借鉴文章及数据如下:专栏1:数据清洗https://zhuanlan.zhihu.com/dataclean :详细介绍了数据清洗的主要方面专栏2:python3 pandas库https://zhuanlan.zhihu.com/c_12923...

2018-10-13 17:35:51 3134

原创 matplotlib【2】-- 饼图

饼图函数:plt.pie()pie函数设置:plt.pie(x, explode=None, labels=None, colors=None, autopct=None, pctdistance=0.6, shadow=False, labeldistance=1.1, startangle=None, radius=None, c...

2018-10-02 22:17:55 212

原创 matplotlib【1】-- 条形图

plt.bar(left, height, width, color, align, yerr)函数:绘制柱形图。left为x轴的位置序列,一般采用arange函数产生一个序列;height为y轴的数值序列,也就是柱形图的高度,一般就是我们需要展示的数据;width为柱形图的宽度,一般这是为1即可.一般默认,除非在交错图中会用到;color为柱形图填充的颜色;align设置plt.xt...

2018-10-02 20:58:47 2165

原创 matplotlib display text must have all code points 128 or use Unicode strings解决方法

“MATPLOTLIB DISPLAY TEXT MUST HAVE ALL CODE POINTS < 128 OR USE UNICODE STRINGS”解决方法import sysreload(sys)sys.setdefaultencoding('utf-8')插入以上代码,便可解决。

2018-10-01 22:04:11 4304

原创 第五关:机器学习实战-简单线性回归模型

机器学习的本质是,通过训练数据集建立一个模型,而后可以通过这个模型实现对于特征的识别,得出结果标签,这个模型可以是多种多样的,简单线性回归模型只是其中最基础最简单的一种模型#导入数据包import pandas as pdimport matplotlib.pyplot as pltfrom collections import OrderedDict#1.建立数据集examdi...

2018-09-16 23:15:23 545

原创 第四关:pandas分析实际案例-药店销售数据分析

import pandas as pdimport numpy as np#读取数据filename='E:\sale.xlsx'xls=pd.ExcelFile(filename,dtype="object")salesdf=xls.parse('Sheet1',dtype='object')#打印出前5行数据print(salesdf.head())#数据大小,多少行多少列...

2018-09-14 14:39:31 2232 2

原创 《利用python进行数据分析.第三版》 第七章 数据清洗和准备

7.1 处理缺失数据缺失数据在pandas中呈现的方式有些不完美,但对于大多数用户可以保证功能正常。对于数值数据,pandas使用浮点值NaN(Not a Number)表示缺失数据。我们称其为哨兵值,可以方便的检测出来。 处理缺失数据有以下几个方法: 判断是否为缺失数据,布尔类型 pd.isnull pd.notnull举例说明:im...

2018-09-14 14:36:29 3611

原创 《利用python进行数据分析.第三版》第6章 数据加载、存储与文件格式

读写文本的数据格式import pandas as pd#1.read_csv是以逗号分隔,将其读入一个DataFrame:file=open("E:\李明霞\利用python数据分析的源代码\ch06\ex1.csv")df1=pd.read_csv(file)print(df1)#2.read_table读取,需要指定分隔符df2=pd.read_table(file...

2018-08-29 11:28:22 864

原创 python爬虫系列案例1-抓取猫眼电影top100(读取-解析-存储)

案例:抓取猫眼电影top100 要求:获取电影相关信息存储在mysql表单中知识点:requests请求读取正则表达式re解析网页pymysql存储网页内容# url:http://maoyan.com/board# 排名,海报,影名,主演,上映时间,评分# 存储,mysql# 模块:pymysql+requests+re(一个正则就可以把上述都可以整出来...

2018-08-16 13:47:45 1426

原创 python爬虫系列四:html解析大法-lxml-xpath

Xpath原本是在可扩展标记语言XML中进行数据查询的一种描述语言,可以很方便的在XML文档中查 询到具体的数据;后续再发展过程中,对于标记语言都有非常友好的支持,如超文本标记语言HTML。 正如在python中有一个内置的re模块用来支持正则表达式 语法一样,python中有一个第三方的lxml模块,可以方便 的支持Xpath的各种操作,可以友好的解析Xpath语法,使 ...

2018-08-13 00:20:04 2710

原创 python爬虫系列三:html解析大法-bs4

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。 它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。 在爬虫开发中主要用的是Beautiful Soup的查找提取功能。 Beautiful Soup是第三方模块,需要额外下载 下载命令:pip install bs4 安装解析器:pip insta...

2018-08-12 22:58:33 20865

原创 python爬虫系列二:requests-设置headers(3)

1、为什么要设置headers? 在请求网页爬取的时候,输出的text信息中会出现抱歉,无法访问等字眼,这就是禁止爬取,需要通过反爬机制去解决这个问题。headers是解决requests请求反爬的方法之一,相当于我们进去这个网页的服务器本身,假装自己本身在爬取数据。 2、 headers在哪里找? 谷歌或者火狐浏览器,在网页面上...

2018-08-10 23:25:57 47610 3

原创 python爬虫系列二:requests-乱码处理(2)

在转码之前,我们首先了解一下常识:编码方式属性encoding:gbk,utf-8,寻找编码方式,找meta下的charset 2.转码函数:decode,encoderp.content本身就是字节流形式rp.text字符串形式人工转码decode,encode,encoding#人工转码#转码函数:decode(),encode()import requests...

2018-08-10 15:37:10 751

原创 python爬虫系列二:requests-最常用库_post(1)

requests-get爬取网页需要安装,pip install requestsimport requests#get方法,请求一个网页rp=requests.get("http://www.baidu.com")#设置网页编码rp.encoding="utf-8"#打印出文本字符串数据#print(rp.text)#打印字节流print(rp.content)req...

2018-08-10 11:50:28 351 1

原创 python爬虫系列一——urllib基本请求库

urllib定义: python内置的http请求库 urllib.request – 请求模块 urllib.error – 异常处理模块 urllib.parse – url解析模块urllib库的基本使用 常用的抓取网页的方法 post和get数据传送urllib的爬取网页import u...

2018-08-10 10:34:56 381

原创 python 类和对象

类和对象定义类 类由三个部分组成: 类的名称:类型 属性:一组数据 方法:允许对进行操作的方法 (行为创建和使用类 普通定义类和对象 class car: def move(self): print("车在奔跑") def toot(self): print("车在鸣笛。。滴滴。。")#创建一个对象BMW=car()...

2018-08-09 22:55:25 366

原创 python正则表达式

导入 正则表达式(或RE)是一种小型的,高度专业化的编程语言,它内嵌在python中,并通过re模块实现。 –可以为想要匹配的相应字符串集指定规则 –该字符串集可能包含英文语句,e-mail地址,命令或任何你想要得到的数据 –可以问诸如“这个字符串匹配该模式吗?”;“在这个字符串中是否有部分匹配该模式呢?” –可以使用RE以各种方式来修改或分隔字符串。定义...

2018-08-09 15:04:04 212

原创 python-pymysql模块-连接mysql-书写sql语句

1、python 连接mysql的方法可参考《软件安装》一栏,使用软件pycharm安装pymysql模块2、pycharm中书写SQL语句在Navicat中建立字段属性导入模块:import pymysql链接Mysql: conn=pymysql.connect(host,user,passwd,port,db,charset)创建游标:cursor=conn.cursor(...

2018-08-08 23:44:06 2440

原创 Pycharm如何连接mysql?

Python和Mysql交互的模块 (1)Mysqldb(python-mysql) (2)Pymysql(pymysql) (3)mysql-connector (mysql-connector-X.X.exe) 由Mysql官方提供的一个数据库操作的API接口 (4)SQLalchemy(SQLalchemy) 使用ORM形式操作数据库(orm:数据表的实体化(类),)有自己的查询...

2018-08-08 20:38:28 3064

原创 模块导入-时间模块-随机模块

#导入模块import random,os#不建议使用导入*from random import *#导入模块中的某一个from random import randintr=randint(10,20)#自定义模块> 自定义模块 > (1)包(文件夹) > (2)模块(文件) > (3)方法(函数)> 包》模块》方法 > 《1》...

2018-08-08 18:08:19 349

原创 文本案例1-将文本去掉空行和注释行放入新的文件中

#将文本去掉空行和注释行放入新的文件中f=open("1.txt","r",encoding="utf-8")result=[]for line in f.readlines(): #读取出后的每一行的前后空格删除 line=line.strip() #判断条件:空行(not len(line))和注释 if not len(line) or line[0]=..

2018-08-08 16:16:18 1830

原创 python基础-数字、字符串

字符串切片 索引 拼接 重复 不可变性name='what's your name?'>>> str='HELLO WORLD'>>> type(str)<class 'str'>>>> name='what's your name?' >>> name='wh

2018-07-29 23:13:34 171

原创 Python基础

编程语言: 用户:问题 计算机:解决问题 机器语言:计算机执行的二进制命令。 汇编语言:具有一定意义的文字命令,与机器语言一一对应 高级语言:更简单,更符合人们的习惯 高级语言分为: 解释性语言:运行程序的时候才翻译,每执行一次都要翻译,效率比较低。 编译性语言:程序执行之前,有一个专门的编译过程,翻译只做一次,运行时不...

2018-07-29 21:26:30 231

原创 《利用python进行数据分析.第三版》 第四章 Numpy

《利用python进行数据分析.第三版》 第四章 Numpy一、numpy的ndarray:一种多维数组对象 1. 创建nadrray 属性: arr.nidm:维度 arr.shape:维度大小 arr.dtype:数值类型 表达规则: np.函数(列表或元祖)1.np.array(列表或者元祖);array函数:接受一切序列型...

2018-07-25 23:30:16 12470 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除