python数据分析
月夜星星雨
回忆后的不怀念
展开
-
python数据收集(tsv,获取与处理html)
平面文件包含明文格式的表格数据,每行一个数据记录,每个记录或行有一个或多个字段。这些字段由分隔符,如逗号、制表符或冒号分隔。平面文件的优点包括:属于文本文件,因此可以读取。 轻巧。 简单易懂。 可以读/写文本文件的软件随处可见,如文本编辑器。 特别适用于小型数据集。平面文件的缺点,例如与关系数据库相比,包括:缺乏标准。 数据冗余。 共享数据可能很麻烦。 不太适用于大型数...原创 2019-04-23 15:15:25 · 2917 阅读 · 0 评论 -
ipython下分析数据
终端下输入ipython notebookJupyter notebook才会有% matplotlib inlineimport pandas as pdimport numpy as npimport matplot.pyplt as plt我们的可视化,我们需要调用plt.show()...原创 2019-04-19 23:42:46 · 95 阅读 · 0 评论 -
python数据分析案例2
# load datasetsimport pandas as pddf_08 = pd.read_csv('all_alpha_08.csv')df_18 = pd.read_csv('all_alpha_18.csv')# view 2008 datasetdf_08.head(1)# view 2018 datasetdf_18.head(1)# dro...原创 2019-04-19 23:35:59 · 991 阅读 · 0 评论 -
pandas案例分析,附加numpy matplotlib
import pandas as pddf=pd.read_csv('',sep=';')这是如果出现; 说明是用;做分隔符,而不是默认的,import pandas as pdred_df = pd.read_csv('winequality-red.csv', sep=';')white_df = pd.read_csv('winequality-white.csv',...原创 2019-04-19 17:58:25 · 1588 阅读 · 0 评论 -
python操作mongodb
pip install pymongo"""Your task is to sucessfully run the exercise to see how pymongo worksand how easy it is to start using it.You don't actually have to change anything in this exercise,...原创 2019-04-24 13:27:42 · 251 阅读 · 0 评论 -
python读取json和使用request模块
"""To experiment with this code freely you will have to run this code locally.Take a look at the main() function for an example of how to use the code. Wehave provided example json output in the ot...原创 2019-04-24 11:46:49 · 2565 阅读 · 0 评论 -
python转换xsl到csv与整理json
# -*- coding: utf-8 -*-'''Find the time and value of max load for each of the regionsCOAST, EAST, FAR_WEST, NORTH, NORTH_C, SOUTHERN, SOUTH_C, WESTand write the result out in a csv file, using pip...原创 2019-04-24 11:45:50 · 382 阅读 · 1 评论 -
python读取csv文件xls文件
import osDATADIR = ""DATAFILE = "beatles-diskography.csv"def parse_file(datafile): data = [] with open(datafile, "r") as ff: header= ff.readline().split(",") counter = 0 ...原创 2019-04-24 11:28:42 · 785 阅读 · 0 评论 -
python数据分析pandas基础用法
import pandas as pddf = pd.read_csv('cancer_data.csv')df.head()# 返回 dataframe 维度的元组df.shape# 返回列的数据类型df.dtypes# 虽然供诊断的数据类型是对象,但进一步的# 调查显示,它是字符串type(df['diagnosis'][0])# 返回每列数据的有效描述性统计d...原创 2019-04-19 12:06:23 · 692 阅读 · 0 评论 -
python清理数据
流程在进行任何清理操作之前,请先将每份数据备份,所有清理操作请在这份复件上进行,保留肮脏和/或凌乱的原始数据集以便日后查看。要在 pandas 中复制数据框,请使用copy方法。如果原始数据框名为df,你可以把即将清理干净的数据集复件命名为df_clean。df_clean = df.copy()import pandas as pddf = pd.r...原创 2019-04-23 17:39:38 · 7464 阅读 · 0 评论 -
python数据评估
未清理的数据:脏数据与杂乱数据未清理数据分为两种:脏数据,也称为低质量数据。低质量数据存在内容问题。 杂乱数据,也称为不整洁数据。不整洁数据存在结构问题。将数据可视化(例如:绘制图形)是编程评估的一部分,而非我们在这里说的目测评估,即通过目测观察对数据进行评估。熟悉视觉评估Auralin 二阶段临床试验数据集来自 3 个表格:patients、treatments和adve...原创 2019-04-23 17:00:32 · 1038 阅读 · 0 评论 -
python数据收集(glob、API、Json、关系数据库)
import globimport pandas as pd# List of dictionaries to build file by file and later convert to a DataFramedf_list = []for ebert_review in glob.glob('ebert_reviews/*.txt'): with open(ebert_re...原创 2019-04-23 16:02:47 · 747 阅读 · 0 评论 -
python编写分析脚本
import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsnp.random.randint(1,100,5)原创 2019-04-19 23:47:12 · 365 阅读 · 0 评论