![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python数据科学库
文章平均质量分 71
Lucky20171225
这个作者很懒,什么都没留下…
展开
-
用户数据分析
第一部分:数据类型的处理(预处理)数据加载 字段定义: user_id:用户ID order_dt:购买日期 order_product:购买产品的数量 order_amount:购买金额 观察数据 查看数据的数据类型 数据中是否存在缺失值 将order_dt转换成时间类型 查看数据的统计描述 计算所有用户购买商品的平均数量 计算所有用户购买商品的平均花费 在源数据中添加一列表示月份:astype('datetime64[M]')原创 2022-02-26 23:44:18 · 1014 阅读 · 0 评论 -
科学数据库(Pandas)——第六节 Pandas时间序列
时间序列为什么要学习pandas中的时间序列不管在什么行业,时间序列都是一种非常重要的数据形式,很多统计数据以及数据的规律也都和时间序列有着非常重要的联系,而在pandas中处理时间序列是非常简单的生成一段时间范围pd.date_range(start=None, end=None, periods=None, freq=‘D’)start 开始时间 end 结束时间 freq 频率 periods 周期 (能够生成从start开始(或者end结尾),频率为fr...原创 2021-04-22 23:50:04 · 170 阅读 · 1 评论 -
pandas 中如何将数据输出到本地
pandas to_csv()方法的使用import pandas as pdfile_path = "./911.csv"df = pd.read_csv(file_path)#导入需要处理的文本tp=df["title"].str.split(":")。 #从df中选取需要的数据tp.to_csv('911副本.csv') #保存在当前目录下tp.to_csv('C:\Users\86181\Desktop.csv') #绝对路径下的保存...原创 2021-04-20 17:04:37 · 530 阅读 · 0 评论 -
科学数据库(Pandas)——第五节 数据的分组和聚合
pandas中对数据进行分组的操作:groupby例如:grouped=df.groupby(by="columns_name") #df中的数据按照"columns_name"这列进行分组grouped是一个DataFrameGroupBy对象,是可迭代的 grouped中的每一个元素是一个元组,元组里面包含的是(索引(分组的值),分组之后的DataFrame注意:只对数据集进行分组操作,将不会显示结果,只会生成一个分组的对象,只有分组后进行聚合运算才有实际结果...原创 2021-02-09 23:43:31 · 293 阅读 · 0 评论 -
数据科学库(HM)——第一节数据分析介绍&matplotlib
数据分析定义:数据分析是用适当的方法对收集来的大量数据进行分析,帮助人们作出判断,以便采取适当行动。为什么要学数据分析?python数据科学的基础(包含pandas、numpy、matplotlib等python库) 机器学习课程的基础数据分析的流程提出问题 准备数据 整理、分析数据 获得结论 成果可视化matplotlibmatplotlib是最流行的Python底层绘图库,主要做数据可视化图表,名字取材于MATLAB,模仿MATLAB构建为什么学习matplot原创 2020-12-12 00:50:22 · 176 阅读 · 0 评论 -
科学数据库(Pandas)——第四节 数据合并之join和merge
数据合并之joinjoin:默认情况下他是把行索引相同的数据合并到一起数据合并之mergemerge:按照指定的列把数据按照一定的方式合并到一起原创 2021-01-30 23:09:15 · 364 阅读 · 0 评论 -
科学数据库(Pandas)——第三节 字符串离散化案例
问题:对于这一组电影数据,如果我们希望统计电影分类(genre)的情况,应该如何处理数据?思路:重新构造一个全为0的数组,列名为分类,如果某一条数据中分类出现过,就让0变为1#coding=utf-8import pandas as pdimport numpy as npfrom matplotlib import pyplot as pltfile_path="MDB-Movie-Data.csv"df=pd.read_csv(file_path)#统计分类的列表原创 2021-01-28 22:58:39 · 130 阅读 · 0 评论 -
科学数据库(Pandas)——第二节 pandas之DataFrame
目录DataFrame的创建DataFrame基本操作pandas之locpandas之ilocpandas之布尔索引缺失数据的处理pandas常用统计方法DataFrame的创建方法一:向DataFrame传入数组可以指定索引的名称:方法二:通过字典传入DataFrameDataFrame基本操作#coding=utf-8import pandas as pddf = pd.read_csv("dogNames2.csv".原创 2021-01-23 21:13:54 · 115 阅读 · 0 评论 -
科学数据库(Pandas)——第一节:pandas之Series类型
目录Series的本质Series的创建Series的切片和索引pandas中的缺失值Series具有的where方法Series的本质Series 是一维的数组型对象,本质上由两个数组构成,一个数组构成对象的键(index,索引),一个数组构成对象的值(values),键->值Series的创建先导入pandas模块import pandas as pd方法一:向Series里传入列表(index不写,默认从0开始),index可以设置指定值,但是i.原创 2021-01-20 18:59:31 · 149 阅读 · 0 评论 -
数据科学库(HM)_第3节_Numpy
什么是numpy?一个在Python中做科学计算的基础库,重在数值计算,也是大部分PYTHON科学计算库的基础库,多用于在大型、多维数组上执行数值运算原创 2021-01-19 17:21:24 · 129 阅读 · 0 评论 -
数据科学库(HM)_第2节_matplotlib绘图
matplotlibmatplotlib能够绘制折线图,散点图,柱状图,直方图,箱线图,饼图等。我们需要知道不同的统计图到底能够表示出什么,以此来决定选择哪种统计图来更直观的呈现我们的数据。对比常用统计图折线图:以折线的上升或下降来表示统计数量的增减变化的统计图特点:能够显示数据的变化趋势,反映事物的变化情况。(变化)直方图:由一系列高度不等的纵向条纹或线段表示数据分布的情况。 一般用横轴表示数据范围,纵轴表示分布情况。特点:绘制连续性的数据,展示一组或者多组数据的分布状况(统计原创 2020-12-17 15:51:31 · 201 阅读 · 0 评论