python数据分析
文章平均质量分 86
brave_jcc
这个作者很懒,什么都没留下…
展开
-
python学习笔记——数据规整化:清理、转换、合并、重塑
一、合并数据集代码merge(如果没有通过on指定按哪个列进行连接,就默认按照重叠的列名进行连接默认是inner,还可以是 left、right、outer,通过how参数赋值指定如果根据多个键进行个并,传入这些列构成的列表suffixes,用于追加到重叠列名的末尾索引参于合并,就是left_index、right_index 是否为True)df1=DataFrame({'key':['b','...原创 2018-03-08 10:16:37 · 214 阅读 · 0 评论 -
数据分析实战——统计、绘图分析数据
根据获取的数据,进行描述统计分析,并绘制直方图获取数据及其描述统计分析#获取数据get_housing_data()housing_data=load_housing_data(housing_path)# 查看数据类型,后面主要使用的是pandas包print(type(housing_data))# 查看前五条数据print(housing_data.head...原创 2018-07-09 16:11:28 · 1985 阅读 · 0 评论 -
python文件写入excel
需求描述:将爬取的新闻数据按照、url地址、url Id、新闻标题、新闻内容字段写入excel表1.安装并导入xlwt模块2.主要函数介绍enumerate 函数用于遍历序列中的元素以及它们的下标w=xlwt.workbook()创建工作簿,可以指定编码格式shet=w.add_sheet(name)创建Excel的sheet页,并指定页名shet.write(row,col,value,styl...原创 2018-03-28 11:57:49 · 1309 阅读 · 0 评论 -
使用matplotlib中的scatter绘图函数分析iris数据集中的特征属性
iris数据集导入有好几种方式,本文采用的是从sklearn包中直接导入使用,并选取期中两列的属性,用散点图分析,代码参考了《机器学习实战》# import numpy as np# from numpy import *# import operatorfrom sklearn.datasets import load_iris# import matplotlibimport ma...原创 2018-03-26 15:28:25 · 1130 阅读 · 0 评论 -
《谁说菜鸟不会数据分析(入门篇)》总结
一、数据分析方法论营销方面:4P、用户使用行为、STP理论、SWOT管理方面的理论模型:PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART原则等PEST(宏观环境分析)P(political)政治环境(社会性质、执政党性质、方针、政策、法令)政治经济体制、财政税收政策、产业政策等E(economic)经济环境宏观GDP及其增长率、进出口总额、利率、税率、通货膨胀率、微观消费价格指数...原创 2018-04-08 09:12:06 · 4070 阅读 · 0 评论 -
python文件读取
一、 使用内置文件读取函数1.open(file,r(rb、w、wb))——相关参数 File指文件名,r指读,rb指以二进制形式读取,w指写(直接覆盖原有内容),wb以二进制形式写入2.read()一次读取全部内容——使用with语句:不需要显示关闭,自动调用close,一次读取整个文件,并将结果整体作为一个str返回with open(r'ml-1m\ratings.dat') as f: ...原创 2018-03-23 11:02:43 · 193 阅读 · 0 评论 -
字典的遍历方法+反序列化
[承接]http://blog.csdn.net/brave_jcc/article/details/79529012#python字典遍历的几种方法#遍历key# 1for key in model: print('键4',key,'-----','值:',model[key]) # 2print('#############################')for key...原创 2018-03-12 16:49:44 · 316 阅读 · 0 评论 -
统计元素个数+字典存入文件(通过序列化)的python实现
[背景]练手,想简单统计一下元素个数。保存成字典形式以后,想要长久的保存下来,方便以后使用,还是得通过序列化,python当中的列表、字符串、字典等数据类型都可以通过序列化以二进制序列形式在网络上传送,便于传输,便于存储。序列化以后,要读取序列内容可以通过反序列化形式pickle.load(f)或者pickle.loads()【知识点】序列化、文件读取、列表、字典和集合操作import pickl...原创 2018-03-12 16:43:54 · 1323 阅读 · 0 评论 -
movielens数据集读取、转换
【1】从https://grouplens.org/datasets/movielens/上下载数据集,包含6000用户,4000多电影的100万条数据【读数据】import pandas as pdimport numpy as npusers_Name=['user_id','gender','age','work','zip']ratings_Name=['user_id','movi...原创 2018-03-16 15:38:50 · 7342 阅读 · 3 评论 -
python划分训练集和测试集
【第一种】方法def splitData(data,seed,m,k): #将数据分成训练集和测试集,每次指定seed,更换K,重复M次,防止过拟合. test=[] train=[] #random.seed(seed),指定seed的话,每次后面的随机数产生的都是一样的顺序 np.random.seed(seed) for user,item in...原创 2018-03-16 15:36:12 · 19990 阅读 · 1 评论 -
python学习笔记——numpy
补充tile(val,(x,y))将val内容复制x行,y列。val可以使单个值,也可以是列表shape()查看矩阵或者数组的维数;如果是一个值,返回'()';如果存在x行,y列,返回'(x,y)';含有n个值得一维数组,返回'(n,)'。d.shape、shape(d)np.argsort()返回的是对一个数组按照从小到大排序的索引数组,例arr1=np.array([6,5,-7,89,1])...原创 2018-03-08 10:20:27 · 320 阅读 · 0 评论 -
python学习笔记——pandas
from pandas import Series,DataFrameimport pandas as pdimport numpy as np 行用0,列用1(一) Series一种类似一维数组的对象,由一组数据(各种numpy数据类型)以及一组与之相关的数据标签(即索引)组成1.创建seriesObj1=Series([1,2,3,4])#不指定索引会自动添加从0到len(obj)-1pr...原创 2018-03-08 10:19:37 · 301 阅读 · 0 评论 -
数据分析知识(一)用户行为分析+不同产品周期产品经理要做的事
最近迷上了用思维导图梳理知识点哈哈哈,凑活看~~用户行为分析产品经理在不同产品生命周期该做的事翻译 2018-09-04 11:36:03 · 360 阅读 · 0 评论