Python;数据分析
墨小青的程序园
这个作者很懒,什么都没留下…
展开
-
python 爬取图片 并保存至docx
#!/usr/bin/evn python# -*- coding: utf-8 -*-import osimport timeimport requestsfrom docx import Documentfrom docx.shared import Inchesclass MyObject(object): def __init__(self): self.doc = Document() def get_url(self, id): .原创 2020-06-19 10:10:47 · 1341 阅读 · 0 评论 -
Python:seaborn的散点图矩阵(Pairs Plots)可视化数据
散点图矩阵让我们看到了两个变量之间的关系,分析趋势。在本文中,我们将通过使用seaborn可视化库在Python中进行对图的绘制和运行。我们将看到如何创建默认配对图以快速检查我们的数据,以及如何自定义可视化以获取更深入的洞察力。该项目的代码在GitHub上以Jupyter Notebook的形式提供。在这个项目中,我们将探索一个真实世界的数据集,由GapMinder收集的国家级社会经济数...转载 2018-10-12 14:58:09 · 3978 阅读 · 0 评论 -
scikit-learn:CountVectorizer提取词频
http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html#sklearn.feature_extraction.text.CountVectorizer sklearn.feature_extraction.text.CountVectorize...转载 2018-09-21 17:06:27 · 3416 阅读 · 0 评论 -
Numpy/pandas/matplot 主要函数
一:numpynumpy中文教程官方文档Numpy是一个用于进行数组运算的库 Numpy中最重要的对象是称为ndarray的N维数组类型 一般使用如下语句导入:import numpy as np 创建数组:numpy.array(object, dtype = None, copy = True, order = None, subok = False, ndmin = 0)...转载 2018-09-20 14:54:35 · 584 阅读 · 0 评论 -
格式化和清洗数据的 Python 工具包
DoraDora是为探索性分析而设计的。特别是自动化分析中最痛苦的部分——比如特征选取和提取,可视化,还有你能猜到的——数据清洁。数据清洁相关的函数可以:读取含有缺失数据和没有标准化的数据表给缺失数据赋值标准化变量开发者:Nathan Epstein更多资料:https://github.com/NathanEpstein/Doradatacleaner号外号外,datacleaner 清洗你的数...转载 2018-05-31 15:08:10 · 682 阅读 · 0 评论 -
Pandas
1. 引言Pandas是一个开源的Python数据分析库。Pandas把结构化数据分为了三类:Series,1维序列,可视作为没有column名的、只有一个column的DataFrame;DataFrame,同Spark SQL中的DataFrame一样,其概念来自于R语言,为多column并schema化的2维结构化数据,可视作为Series的容器(container);Panel,为3维的结...转载 2018-04-28 18:13:50 · 633 阅读 · 0 评论 -
python重要函数(lambda,filter,reduce,map,zip)
一、匿名函数lambdalambda argument1,argument2,...argumentN :expression using arguments 1、lambda是一个表达式,而不是一个语句。因为这一点,lambda可以出现在python语法不允许def出现的地方---例如,在一个列表常量中或者函数调用的参数中,此外,作为一个表达式,lambda返回一个值一个值(一个新的函数),可以...转载 2018-05-02 14:15:14 · 165 阅读 · 0 评论 -
数据分析pandas包
关键缩写和包导入在这个速查手册中,我们使用如下缩写:df:任意的Pandas DataFrame对象s:任意的Pandas Series对象同时我们需要做如下的引入:import pandas as pdimport numpy as np导入数据pd.read_csv(filename):从CSV文件导入数据pd.read_table(filename):从限定分隔符的文本文件导入数据pd.re...转载 2018-03-07 10:13:52 · 618 阅读 · 0 评论 -
Jupyter Notebook 的快捷键
原文:http://blog.csdn.net/lawme/article/details/51034543Jupyter Notebook 的快捷键Jupyter Notebook 有两种键盘输入模式。编辑模式,允许你往单元中键入代码或文本;这时的单元框线是绿色的。命令模式,键盘输入运行程序命令;这时的单元框线是灰色。命令模式 (按键 Esc 开启)Enter : 转入编辑模式Shift-Ent...转载 2018-03-07 10:12:16 · 167 阅读 · 0 评论 -
python读取一个excel多个sheet表并合并
import xlrdimport pandas as pdfrom pandas import DataFrameDATA_DIR = 'E:/'excel_name = '%sxxx.xls' % DATA_DIRwb = xlrd.open_workbook(excel_name)# print(wb)# 获取workbook中所有的表格sheets = wb.sh原创 2018-01-04 19:33:25 · 28293 阅读 · 1 评论 -
最短路径(Python)networkx 包
# -*- coding: utf-8 -*- import networkx as nximport pylabimport numpy as np#自定义网络row=np.array([0,0,0,1,2,3,6])col=np.array([1,2,3,4,5,6,7])value=np.array([1,2,1,8,1,3,5])print('生成一个空的有向图')G转载 2017-11-16 17:02:24 · 1938 阅读 · 0 评论 -
python 把多个excel、csv写成同一excel多个sheet
import pandas as pd# 创建一个输出文件writer = pd.ExcelWriter('E:/test/he.xlsx')data = pd.read_table('E:/test/chuncker.csv',sep=',',encoding='GBK')data.to_excel(writer,'data',index=False)base = pd.read_转载 2017-09-12 13:52:34 · 4151 阅读 · 0 评论 -
python读写excel、csv
import pandas as pdfrom pandas import Series,DataFrameproject_name='017'df1 = pd.read_excel('E:/%s.xls'%project_name,encoding = "GBK") #encoding = "GBK",中文编码格式#文件过大,逐块迭代chuncker=pd.read_cs原创 2017-09-08 15:25:05 · 556 阅读 · 0 评论 -
pandas去重、缺失
from numpy import nanfrom pandas import DataFrameflag=[]k=21flag.append(k)print(flag[0])print(len(flag))a=nanif a is nan: a='KK'else: a=a+','+'KK'print(a)b='bd'if b=='bd': prin原创 2017-09-08 14:37:03 · 429 阅读 · 0 评论 -
python数据分析
#输入def count_(): a_list=list([1,2,3,1,2]) print(a_list) """ 求个数 """ count_list = {} for i in a_list: count_list[i] = count_list.get(i,0)+1 print(count_list)转载 2017-08-25 10:14:49 · 229 阅读 · 0 评论