Python数据分析
数据分析学习
老肥码码码
Hello World
展开
-
我的2019年度代码报告
不知从何时起,年度报告总能在旧年将近、新年伊始的时候掀起朋友圈的热潮。近日,网易云音乐、知乎等各大流行app也如期放出了其用户2019年的年度报告,我突发奇想,为何不为自己生成一个GitHub的年度代码报告?绿油油的GitHub仿佛在诉说着咱们coder的岁岁年年。本报告的数据来源于我的 GitHub 2019年全年的代码提交数据,经简单的Python网络爬虫与数据分析获得。...原创 2020-01-01 09:06:08 · 1318 阅读 · 2 评论 -
数据分析实战(二):流浪地球8W多条评论分析
根据之前的文章,爬取了猫眼电影从流浪地球上映日2月5日起到2月13日8时的84886条评论和评分数据,下面通过数据分析及其可视化来展现数据背后的故事。爬取文章链接:https://blog.csdn.net/lyc44813418/article/details/87522369数据清洗data = data.drop(columns='_id')data = data.d...原创 2019-02-18 17:19:31 · 1471 阅读 · 3 评论 -
数据分析实战(一):2019北大软微考研初试分析
2019考研的初试成绩陆续放出,也是几家欢喜几家愁。北大确实公平公正公开,所有成绩,排名在其研招网均能悉数找到,下面选取了较为热门的北大软件与微电子学院考研初试成绩进行数据分析。导入excel文件生成DataFrame,观察其形状以及部分示例data=pd.DataFrame(pd.read_excel('软微2019成绩.xlsx'))print(data.shape)pri...原创 2019-02-16 19:57:01 · 11753 阅读 · 0 评论 -
time库
Python time1 时间戳:格林威治时间1970年01月01日00分00秒(北京时间1970年01月01日08时00分00秒)起至现在的总秒数。Python中获取时间的常用方法是,先得到时间戳,再将其转换成想要的时间格式。2 元组struct_time:日期、时间是包含许多变量的,所以在Python中定义了一个元组struct_time将所有这些变量组合在一起,包括:4位数年...原创 2019-01-31 20:37:56 · 2529 阅读 · 0 评论 -
calendar库
Python calendarcalendar.calendar以一个多行字符串格式返回一年的日历parameter:w :每个日期之间的间隔字符数l : 每周所占用的行数c :每个月之间的间隔字符数m: 每行几个月calendar.prcal的效果与之相同,均能打印指定年份的日历 import calendara=calendar.calend...原创 2019-01-31 19:27:51 · 572 阅读 · 0 评论 -
datetime库
Python datetimePython提供了多个内置模块用于操作日期时间,如calendar,time,datetime。其中calendar用于处理日历相关 ;time提供的接口与C标准库time.h基本一致;而其中应用最广的即datetime,相比于time模块,datetime模块的接口则更直观、更容易调用。其为日期和时间处理提供了多种方法,还可格式化输出,支持对时区进行处...原创 2019-01-31 17:24:18 · 283 阅读 · 0 评论 -
pyecharts自定义图表
Grid:并行显示多张图表一共绘制了四张图,分别为折线图,条形图,散点图,条形图,具体的代码如下:# -*- coding: utf-8 -*-"""Created on Mon Jan 28 18:02:34 2019@author: Administrator"""from pyecharts import Bar, Line, Grid,Scatterbar=Ba...原创 2019-01-29 11:17:29 · 2857 阅读 · 0 评论 -
Pandas数据特征分析
Pandas库的数据排序.sort_index()方法在指定轴上根据索引进行排序,默认升序.sort_index(axis=0, ascending=True)import pandas as pdimport numpy as npb=pd.DataFrame(np.arange(20).reshape(4,5),index=['c','a','d','b'])print...原创 2019-01-28 08:36:23 · 2613 阅读 · 0 评论 -
.loc 与.iloc
Python中根据位置取值可以用.loc,.iloc,.ix,还可以通过每一行的索引和列的索引,把需要的行和列单独取出来.iloc:根据标签的所在位置,从0开始计数,选取列,如果索引是数字,就使用.ilocloc:根据DataFrame的具体标签选取列,.loc主要是针对字符串的,当索引是字符串时可以使用一、当每列已有column name时,用 df [ 'a' ] 就能选取...原创 2019-01-27 18:17:20 · 25638 阅读 · 0 评论 -
pyecharts库
pyecharts 是一个用于生成 Echarts 图表的类库。 echarts 是百度开源的一个数据可视化 JS 库,主要用于数据可视化。pyecharts 是一个用于生成 Echarts 图表的类库。实际上就是 Echarts 与 Python 的对接。使用 pyecharts 可以生成独立的网页,也可以在 flask , Django 中集成使用。可能会用的一些基本函数add...原创 2019-01-27 13:39:02 · 2387 阅读 · 2 评论 -
Pandas库
Pandas是Python第三方库,提供高性能易用数据类型和分析工具,Pandas基于NumPy实现,常与NumPy和Matplotlib一同使用import pandas as pd两个数据类型:Series, DataFrame基于上述数据类型的各类操作:基本操作、运算操作、特征类操作、关联类操作 Series类型Series类型由一组数据及与之相关的数据索引组成...原创 2019-01-27 09:44:09 · 951 阅读 · 0 评论 -
Matplotlib基础绘图函数
pyplot饼图的绘制import matplotlib.pyplot as pltlabels='Frogs','Hogs','Dogs','Logs'sizes=[15,30,45,10]explode=(0,0.1,0,0) #第二个突出显示plt.pie(sizes,explode=explode,labels=labels,autopct='%1.1...原创 2019-01-26 16:48:23 · 500 阅读 · 0 评论 -
Matplotlib库
Matplotlib库由各种可视化类构成,内部结构复杂受Matlab启发matplotlib.pyplot是绘制各类可视化图形的命令子库,相当于快捷方式import matplotlib.pyplot as pltplt.plot()只有一个输入列表或数组时,参数被当作Y轴,X轴以索引自动生成import matplotlib.pyplot as pltplt.plot([...原创 2019-01-26 11:28:56 · 260 阅读 · 0 评论 -
图像的手绘效果(PIL的应用实例)
图像的变换:原图像:1.读入图像后,获得像素RGB值(所有RGB值取反),修改后保存为新的文件from PIL import Imageimport numpy as npim=np.array(Image.open("D:/pytest/a.jpeg"))print(im.shape,im.dtype)b=[255,255,255] -imnewim=Image.fr...原创 2019-01-25 22:35:37 · 902 阅读 · 0 评论 -
Numpy库
NumPyNumPy是一个开源的Python科学计算基础库,包含:• 一个强大的N维数组对象 ndarray• 广播功能函数• 整合C/C++/Fortran代码的工具• 线性代数、傅里叶变换、随机数生成等功能NumPy是SciPy、Pandas等数据处理或科学计算库的基础NumPy的引用import numpy as npN维数组对象:ndarrayndarr...原创 2019-01-25 17:13:53 · 2235 阅读 · 0 评论