![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python数据分析
文章平均质量分 63
王小小小草
人工智能、机器学习、深度学习、自然语言处理、程序媛
展开
-
预处理数据的方法总结(使用sklearn-preprocessing)
预处理数1. 标准化:去均值,方差规模化Standardization标准化:将特征数据的分布调整成标准正太分布,也叫高斯分布,也就是使得数据的均值维0,方差为1.标准化的原因在于如果有些特征的方差过大,则会主导目标函数从而使参数估计器无法正确地去学习其他特征。标准化的过程为两步:去均值的中心化(均值变为0);方差的规模化(方差变为1)。在sklearn.preprocessing中提供了一个sca原创 2016-12-02 13:36:46 · 89776 阅读 · 7 评论 -
03_6Pandas_分组与聚合
Pandas分组与聚合1. GroupByimport pandas as pdimport numpy as np创建一个8 * 4的DataFrame:dict_obj = {'key1' : ['a', 'b', 'a', 'b', 'a', 'b', 'a', 'a'], 'key2' : ['one', 'one',原创 2016-12-26 16:07:13 · 939 阅读 · 0 评论 -
03_7Pandas_分组运算
1.merge and transform聚合运算改变了原始数据的shape。但是如果我想保持原始数据的shape要咋办呢?有两个方法:使用merge的外连接,但着有点复杂使用transform于是我们来看以下这个例子:# 导入需要的库import pandas as pdimport numpy as np# 创建DataFramedict_obj = {'key1' : ['a',原创 2016-12-26 16:58:24 · 461 阅读 · 0 评论 -
03_8Pandas_透视表与交叉表
import pandas as pdimport numpy as npdataset_path = './starcraft.csv'df_data = pd.read_csv(dataset_path, usecols=['LeagueIndex', 'Age', 'HoursPerWeek', '原创 2016-12-26 17:13:51 · 3246 阅读 · 0 评论 -
03_9Pandas_数据连接merge
Merge在之前的笔记中就已经介绍过了。它的用处可以看成是数据库操作中的join。即,将两个表,根据某个共同的key横向拼接成一个表。先导入连个需要用到的包:import pandas as pdimport numpy as np1. 有相同列标签的情况下然后通过dict创建两个DataFrame,分别都有两列,其中有一列的列标签相同;另一列分别是在0到10之间随机产生的均匀分布的整型数据。df原创 2016-12-27 10:33:01 · 980 阅读 · 0 评论 -
03_10Pandas_数据合并concat
注意concat与merge的区别,concat是沿轴方向将多个对象合并到一起。numpy 和 pandas里都有实现concat的函数与功能。import numpy as npimport pandas as pdNumPy的concat# 创建两个DataFramearr1 = np.random.randint(0, 10, (3, 4))arr2 = np.random.randin原创 2016-12-27 11:12:11 · 5063 阅读 · 0 评论 -
03_11Pandas_数据重构stack
import numpy as npimport pandas as pdstack将行索引旋转为列索引,完成层级索引。下面例子中,先创建一盒5 × 2 的DataFrame。然后对它进行stack,于是原来的行索引变成了外层索引,原来的列索引变成了内层索引了。df_obj = pd.DataFrame(np.random.randint(0,10, (5,2)), columns=['data1原创 2016-12-27 11:13:07 · 2290 阅读 · 0 评论 -
03_12Pandas_数据转换
import numpy as npimport pandas as pd重复数据的操作在DataFrame中存在着重复行数据,或者某列中存在着重复的数据,根据需求我们也需要将他们找出来删除掉或者做其他操作。在Pandas中,.duplicated()表示找出重复的行,返回布尔类型的结果,如过该行有重复则维true,否则维false.drop_duplicates()表示将过滤重复行,即“去重”,原创 2016-12-27 11:14:06 · 1131 阅读 · 0 评论 -
04_1Python绘图_matplotlib
matplotlib是款比较基础的绘图工具。本文简单地介绍它基本的使用。首先要导入包matplotlib.pyplot:import matplotlib.pyplot as pltimport numpy as np% matplotlib inline颜色、标签、线型往plot( )里传入要画处的变量外,还可以传入设置颜色,标签,线型的参数,分别是color, marker, linesty原创 2016-12-27 11:40:36 · 816 阅读 · 0 评论 -
03_5Pandas_层级索引
Pandas层级索引import pandas as pdimport numpy as np1.创建有多层索引的series下面创建一个Series, 在输入索引Index时,输入了由两个子list组成的list,第一个子list是外层索引,第二个list是内层索引。ser_obj = pd.Series(np.random.randn(12), inde原创 2016-12-26 14:28:32 · 3364 阅读 · 0 评论 -
03_4Pandas_绘图
Pandas的绘图函数说起绘图,之前的笔记中讲过Matplotlib。这是相对“低级”的绘图工具,需要自己完成基础组件的组装,如图例,标题,标签。本文要介绍的是Pandas绘图函数,它会更高效,更简单,只需要根据数据的索引,标签进行绘图。这里主要介绍3类图像的绘制:线形图,柱状图,散布矩阵。了解与学习更多pandas绘图的知识,可以参看链接: http://pandas.pydata.org/pa原创 2016-12-26 12:41:39 · 760 阅读 · 0 评论 -
python数据分析 -- numpy库初识
标签(空格分隔): 王小草机器学习笔记python的强大之处不但因为简洁易学高效,还在于她有许多库,可以方便我们得到想要的计算。比如今天讲的numpy库,为python提供了快速的多维数组的处理能力。有人数,numpy库的出现使得python可以像matlab一样去计算了。(matlab是10年前乃至今日仍然大受青睐的草稿本式的编程语言)。1. 导入Numpy库要调用numpy库,我们就要导入这个库原创 2016-12-07 17:45:10 · 2855 阅读 · 0 评论 -
Python本地读写:CSV/excel/html/sql/txt
Python本地读写:CSV/excel/html/sql/txtcsv文件是一种以逗号为分隔符的纯文本形式存储的表格数据。通常csv文件的第一行是列名。既然是表格类的数据,那么最先想到的应是pandas库的读取方法。pandas以dataframe或series为格式,其实就是表格形式的数据。所以下面介绍用pandas来读取的方法。当然pandas还可以读取许多其他格式的文件,之...原创 2016-12-26 11:31:12 · 3404 阅读 · 0 评论 -
01ython内部数据获取_读写txt
Python本地读写:txt文件操作txt是一种很常见的文件格式。它是由字符串行组成,每行由EOL(end of line)字符隔开:“\n”要打开文件可以用open(path/filename, access_mode)实现,access_mode有两种模式:一种是“读”,一种是“写”,分别用”r“,”w“表示。在读取完文件之后,记得一定一定一定要关闭文件:.close()。 否则会一直保持着与原创 2016-12-26 11:33:18 · 535 阅读 · 0 评论 -
02Python外部数据获取_下载网页
爬虫简介爬虫的基本结构分成3个模块:1.URL管理模块对计划爬取的或者已经爬取的URL进行管理。防止重复爬取或者循环爬取。实现方式:python的set数据格式;数据库中的数据表;缓存数据库redis。2.URL下载模块将URL对应的网页下载到本地或者读入内存中实现方式:python官方的基础模块:urllib2可以用来下载网页request或者其他第三方库3.网页解析模块从已经下载下原创 2016-12-26 11:35:09 · 4453 阅读 · 0 评论 -
02Python外部数据获取_解析网页
BeautifulSoup解析网页本文档讲解的是爬虫的第3个模块:解析网页模块第二个模块下载下来的网页内容并不是我们最终想要的格式。所以需要对这些网页进行解析,以提取需要的内容。BeautifulSoup是用来解析网页的工具。用于解析HTML或者XML首次使用该工具,需要先安装: conda install -C asmeurer beautiful-soup=4.3.2它的使用步骤分为两步:原创 2016-12-26 11:41:17 · 1325 阅读 · 0 评论 -
03_1Pandas_数据结构
Pandas数据结构做python数据分析,数据挖掘,机器学习的童鞋应该都离不开pandas。在做数据的预处理的时候pandas尤为给力。本文主要介绍pandas中的两种数据结构:series,dataframe。import pandas as pd1.Series首先来介绍series数据结构。series 类似于一维数组的对象。对于series基本要掌握的是:构建series获取serie原创 2016-12-26 11:43:18 · 1452 阅读 · 0 评论 -
03_2Pandas_数据操作
Pandas数据操作import pandas as pd1. 索引操作1.1 Series索引1.1.1 行索引Series通过索引获取对应的value有两种方式。一种是通过索引的名称,一种是通过位置# 先创建一个索引维abcde的Seriesser_obj = pd.Series(range(5), index = ['a', 'b', 'c', 'd', 'e'])print ser_ob原创 2016-12-26 11:53:58 · 1158 阅读 · 0 评论 -
03_3Pandas_数据统计
Pandas统计计算和描述import numpy as npimport pandas as pd1. 常用的统计计算常用的统计计算有sum, mean, max, min等等。axis=0表示按列进行统计;axis=1表示按行进行统计。df_obj = pd.DataFrame(np.random.randn(5,4), columns = ['a', 'b', 'c', 'd'])prin原创 2016-12-26 11:56:59 · 484 阅读 · 0 评论 -
04_2Python绘图_seaborn
Python中的一个制图工具库,可以制作出吸引人的、信息量大的统计图在Matplotlib上构建,支持numpy和pandas的数据结构可视化,甚至是scipy和statsmodels的统计模型可视化seaborn的特点:多个内置主题及颜色主题可视化单一变量、二维变量用于比较数据集中各变量的分布情况可视化线性回归模型中的独立变量及不独立变量可视化矩阵数据,通过聚类算法探究矩阵间的结构可视化原创 2016-12-27 13:18:27 · 2424 阅读 · 0 评论