![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘之路
rthnfgxh
这个作者很懒,什么都没留下…
展开
-
pandas入门——数据的读取
pandas入门pandas是专门用来处理复杂数据的python库,我们可以使用pandas来很方便的处理数据,这使我们的效率有很大的提升。pandas导入 在使用pandas之前需要保证已经安装了pandas,可以在pandas官网上下载该库并安装。 安装完成后使用import来导入就可以使用了。打开csv文件df = pandas.read_csv(filepath_or_buffer原创 2017-08-01 12:23:57 · 891 阅读 · 0 评论 -
pandas入门——多重索引
多重索引设置多重索引# 导入数据import pandas as pdimport numpydf1 = pd.read_csv(filepath_or_buffer="D://movie.csv")df_new = df1.set_index(["country","director_name"],append=True,drop=False,inplace=True)append参数原创 2017-08-07 13:16:28 · 20381 阅读 · 0 评论 -
matplotlib入门——绘制简单图形
绘制简单图形绘制函数曲线图import numpy as npimport pandas as pdimport matplotlib.pyplot as plt# 创建一个包含100000个元素的从0开始到2PI结束的等差数列x = np.linspace(0,2*np.pi,100000)# 求出该等差数列的sin值y = np.sin(x)# 获取到绘图对象plt.plot(x原创 2017-08-10 18:08:29 · 416 阅读 · 0 评论 -
pandas入门——数据过滤
数据过滤import pandas as pdimport numpy# 导入数据fd = pd.read_csv(filepath_or_buffer="D://NBA.csv", encoding="gbk")print(fd.shape)# 分组数据g1 = fd.groupby(by="collage")print(g1.size())# lambda函数作用于每一个分组fd1 = g原创 2017-08-02 20:02:15 · 1282 阅读 · 1 评论 -
pandas入门——数据转换
数据转换import pandas as pd# 导入数据df = pd.read_csv(filepath_or_buffer="D://NBA.csv", encoding="gbk")print(df.shape)# 分组数据g1 = df.groupby(by="collage")print(g1.size())# 求分组数据的统计量f = lambda x: (x - x.mean()原创 2017-08-02 20:00:19 · 270 阅读 · 0 评论 -
pandas入门——数据分组
数据分组数据的导入f = pd.read_csv("D://NBA.csv", encoding="gbk")print(type(f))print(f.shape)# 按条件进行分组g1 = f.groupby(by=list(["collage"]))print(type(g1))print(g1)获取分组数据的第一行print(g1.first())获取每组的个数pri原创 2017-08-02 18:19:48 · 2470 阅读 · 0 评论 -
numpy入门——矩阵计算
矩阵计算加import numpy as npnp1 = np.random.randint(low=3, high=56, size=(4, 5))np2 = np.random.randint(low=78, high=5690, size=(4, 5))print(np1)print(np2)# 加print(np1 + np2)减# 减print(np1 - np2)乘原创 2017-08-09 18:23:16 · 365 阅读 · 1 评论 -
numpy入门——数组属性操作
数组属性操作获取数组长度import pandas as pdimport numpy as np# 创建一个多维数组np1 = np.random.randint(low=3, high=60, size=(4, 5, 6))print(np1)# 获取数组的长度print(len(np1))获取数组中元素的个数# 获取数组中元素的个数print(np.size(np1))获取数组原创 2017-08-09 18:18:24 · 297 阅读 · 0 评论 -
numpy入门——数组操作
数组操作根据筛选条件对数组元素进行筛选import numpy as npimport pandas as pd# 创建一个多维数组np1 = np.random.randint(low=4, high=90, size=(4, 5, 6))np2 = np.random.randint(low=4, high=77, size=(4, 5, 6))# 根据条件筛选数组 如果元素大于56就返原创 2017-08-09 18:10:50 · 260 阅读 · 0 评论 -
pandas入门——创建dataframe
创建dataframe利用集合创建dataframed1 = pd.DataFrame(data=list([1, 2, 3]), index=list(["a", "b", "c"]))print(d1)利用数组创建dataframed2 = pd.DataFrame(data=numpy.array(list([1, 2, 3, 4, 5, 6, 7])))print(d2)利用字原创 2017-08-02 16:32:48 · 5116 阅读 · 0 评论 -
numpy入门——创建随机数组
创建随机数组创建0到1之间的小数# 创建0到1之间的小数np1 = np.random.random()print(np1)创建指定范围内的整数多维数组# 创建在指定范围内的整数多维数组np2 = np.random.randint(low=3, high=500, size=(5, 6, 7))print(np2)创建标准正态分布数组# 创建标准正态分布的数组 标准正态分布也叫原创 2017-08-09 16:30:01 · 1365 阅读 · 0 评论 -
numpy入门——创建数组的其他方式
创建数组的其他方式创建指定区间的数组import numpy as npimport pandas as pd# 创建一个从1开始到99结束的数组 前闭后开区间np1 = np.arange(1, 100)print(np1)基于已经创建的数组生成新数组# 创建一个以np1为模板的数组集合np2 = np.array(np1)print(np2)创建等差数列数组# 创建一个从原创 2017-08-09 16:19:48 · 304 阅读 · 0 评论 -
numpy入门——创建二维数组
创建二维数组import numpy as np# 当数据中出现一个字符串的时候就会自动将所有元素转换成字符串类型np1 = np.array([[1, 2, 3, 4, 5, 6, 7, 8, 9], [1, 2, 3, 4, 5, 6, 7, 8, 9], [1, 2, 3, 4, 5, 6, 7, 8, 'True']])print(np1)print(np1.shape)print—>:原创 2017-08-09 16:06:46 · 16946 阅读 · 0 评论 -
numpy入门——创建一维数组
创建一维数组元素属性相同import numpy as np# 创建一维数组np1 = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 0])print(np1)print(type(np1))print—>: [1 2 3 4 5 6 7 8 9 0] class ‘numpy.ndarray’ 元素属性不同时np2 = np.array([1, 2, 3,原创 2017-08-09 16:03:50 · 8390 阅读 · 0 评论 -
pandas入门——创建series
创建Series利用实数创建series# 利用实数创建Series 并指定keys1 = pd.Series(3, index=list("a"))print(s1)利用列表创建seriess2 = pd.Series(list("abcdfgdhsdafcv"))print(s2)利用元祖创建seriess3 = pd.Series(tuple("sdfacdfgd"))pr原创 2017-08-02 15:32:27 · 11475 阅读 · 0 评论 -
pandas入门——Series
Seriesseries是一维数据结构,dataframe的每一行与每一列都是series。获取索引s = df["Player"]print(type(s))print(s.index)获取valuess.values获取值对应的个数s1.value_counts()获取namess1.name获取符合过滤条件的值s2 = df["weight"]print(s2[s2原创 2017-08-02 10:57:59 · 267 阅读 · 0 评论 -
pandas入门——DataFrame
DataFrame获取数据# 打印数据的前五行print(df.head())# 打印数据的后五行print(df.tail())选取一列# 选取一列print(df["height"])# 数据类型是<class 'pandas.core.series.Series'>print(type(df["weight"]))增加一列df["new_column"] = 0df["he原创 2017-08-01 13:22:38 · 339 阅读 · 0 评论 -
pandas入门——多表操作
多表操作concat函数import pandas as pdimport numpy dictionary1 = {"A":["A0","A1","A2","A3"],"B":["B0","B1","B2","B3"],"C":["C0","C1","C2","C3"],"D":["D0","D1","D2","D3"]}df1 = pd.DataFrame(data=dictionary原创 2017-08-07 13:56:51 · 583 阅读 · 0 评论