python大数据分析基础
python大数据分析基础,欢迎来访
**猿来是你**
这个作者很懒,什么都没留下…
展开
-
大数据基础-数据抽取
字段抽取'''数据抽取: 字段抽取是指抽出某列上指定位置的数据做成的新数据 其代码格式为:slice(start,stop) start表示开始位置 stop表示结束位置'''from pandas import read_exceldf=read_excel(r'i_nuc.xls',sheet_name='Sheet4');print(df);pr...原创 2020-05-17 20:34:27 · 1095 阅读 · 0 评论 -
大数据分析-Python图像处理基础
PIL图库PIL库在python3中使用pillow代替,因此需要安装pillowpip install pillow'''PIL读取图像'''from PIL import Imageimport matplotlib.pyplot as plt# 读入图片image=Image.open(r'zhouzhou.jpg')plt.imshow(image) # 显示图片plt.axis('off') # 不显示坐标轴plt.show()#将其转换成灰度图像image_gray原创 2020-05-11 20:11:10 · 472 阅读 · 0 评论 -
大数据分析-Seabon中的图例
1、数据分布可视化1.1 直方图和密度函数"""seabon是专门的数据可视化包 1.数据分布可视化"""from sklearn.datasets import load_irisimport numpy as npiris=load_iris()# 将数据转换成DataFrame格式from pandas import DataFramedf=DataFrame(iris.data,columns=iris.feature_names)df['target']=iris.t原创 2020-05-11 18:19:43 · 702 阅读 · 0 评论 -
大数据基础-Matplotlib绘图
点图和线图"""数据可视化是关于图形或表格的展示,借助图形化的手段,有效的传达信息使用Matplotlib绘图: 1.绘制点图和线图 点图和线图是用来表示二维数据之间的关系,查看两个变量之间关系的最有效的方法 可以通过plot()函数来实现。 使用subplot可以绘制多个子图图像,并且可以添加标题和坐标轴。"""import numpy as npimport matplotlib.pyplot as plt#生成x1和x2x1=np原创 2020-05-11 16:05:07 · 903 阅读 · 0 评论 -
大数据基础-数据整理
"""修改记录: 1.整体修改,通过df[列名]=值,用值来整体替换df[列]的值 2.个别修改: 2.1单只替换:命令格式为:df.repalce('B','A')表示用A值替换B值 2.2指定列值替换:命令格式为:df.replace({'列名 C','A'},B),表示用B值来替换列名为C中的A的值 2.3多值替换:命令格式为df.replace([A,B,C.....],[E,F,G.....]),表示用E,F,G.原创 2020-05-10 16:51:07 · 426 阅读 · 0 评论 -
大数据基础-词云构建
案例一:'''词云就是将噶你兴趣的词语放在一张图像中,通常使用字体的大小来反映出现的频率。出现的频率越高。词云中的字体越大'''import jiebafrom wordcloud import WordCloudimport matplotlib.pyplot as plts1='020赛季中超联赛原本计划在2月底揭幕,因为新冠疫情影响,已经拖延了两个多月时间。' \ '绝大多数职业俱乐部本就处于长期亏损状态,眼下没有比赛可打,收入更几乎为零。与此同时,' \ '俱乐部却依然要原创 2020-05-08 17:45:52 · 1236 阅读 · 0 评论 -
大数据基础-词云jieba分词
cut用法"""词云就是对网络上的出现频率较高的“关键词”予以视觉上的突出。形成关键词云层,关键渲染层,从而过滤掉大量的文本信息,通过浏览图层就可以浏览文本的主旨词云需要安装两个库:jieba和wordcloud pip install jieba pip install wordcloud""""""中文分词介绍: 中文分词就是将一个汉字序列切分成一个单...原创 2020-05-08 16:15:12 · 819 阅读 · 0 评论 -
大数据基础-数据重复值和缺失值处理
重复值处理"""" 在数据分析中,存在大量不完整、不一致、有异常的数据,严重影响到数据分析结果 数据清洗就是处理缺失数据及清除无意义的信息,如删除原始数据集中的无关数据,重复数据, 平滑噪声数据,筛选掉与分析主题无关的数据,处理缺失值,异常值""""""1.重复值的处理1.1 利用DataFrame中的duplicated方法返回布尔类型的Series,显示是否有重复行,如果没有...原创 2020-05-07 21:06:47 · 1900 阅读 · 0 评论 -
大数据基础-导入、导出文件
导入txt文件"""数据存在的形式多种多样,有文件text,csv等格式也有数据库mysql相关的数据格式,在pandas中输入到如有read_table,用来导入txt文件read_excel,用来导入excel文件read_csv,用来导入csv文件read_sql,永爱带入mysql相关的文件"""#导入txt文件"""read_table函数用于导入txt文件,其代码格...原创 2020-05-07 18:13:57 · 417 阅读 · 0 评论 -
大数据基础-DateFrom练习
#DataFrame数据框用于存储多行多列的数据集合,可以对DataFrame进行增删查改等操作from pandas import DataFramefrom pandas import Series# df=DataFrame({# 'age':Series([26,34,76]),'name':Series(['张三','王五','陈六'])},index=[0,1,2]);...原创 2020-05-07 17:16:59 · 470 阅读 · 0 评论 -
大数据基础-pandas练习
'''pandas中除了panel数据结构,还引入两种数据结构Series和DataFrame,这两种数据结构都建立在Numpy基础之上。Series:一维数组序列,与Numpy中的array相似DataFrame,二维表格型数据结构,可以理解为是Series的容器Panel:三维的数据结构,可以理解为DataFrame的容器'''#导入Series包from pandas impo...原创 2020-05-07 16:31:42 · 189 阅读 · 0 评论 -
python大数据-numpy基础
numpy基础学习'''在数据分析中常会用到三个包,Numpy,Pandas,Scipy其中Numpy包通常用来处理矩阵,它的处理速度比列表要高效的多,Scipy是用来科学计算的包,包括线性代数和统计,而Pandas是基于Numpy的一款数据分析工具。'''#Numpy是数据结构的n维的数组对象叫做ndarry#导入numpy包,as+名字,相当于起别名,用其代替相关的包impor...原创 2020-05-07 16:25:05 · 144 阅读 · 0 评论