python
ZLuby
慢慢来比较快
展开
-
python数据清洗(二)
第二部分整理数据进行分析1、识别整洁的数据要使数据整洁,它必须具有:(1)每个变量作为单独的列。(2)每行作为单独的观察。作为数据科学家,将遇到以各种不同方式表示的数据,因此在看到数据时能够识别整洁(或不整洁)数据非常重要。请注意,df2的变量列包含值Solar.R,Ozone,Temp和Wind。为了使它整洁,这些应该都在单独的列中,如df1中所示。2、使用melt重塑...原创 2018-12-07 17:39:58 · 9995 阅读 · 0 评论 -
python删除csv文件的偶数行/奇数行
原始csv如下:需要的数据如下,也就是删除偶数行,每个偶数行都错位了:代码实现:#导入pandasimport pandas as pd#导入数据lizi=pd.read_csv('注册商标商品服务信息录入失败.csv')for i in range(lizi.shape[0]):#.shape()用于获取数据形状 if i%2 == 0: ...原创 2020-01-09 16:38:07 · 4383 阅读 · 0 评论 -
python pandas的read_html方法爬取网页表格
要爬取的网页:网址·http://www.cnipa.gov.cn/zfwq/zftjyfx/1144737.htm长这样的表格爬取以上表格,保存为CSV格式。代码实现:import pandas as pdurl ='http://www.cnipa.gov.cn/zfwq/zftjyfx/1144737.htm'# 找到所需爬取的表格 [1]代表取第二个表格tb...原创 2020-01-02 15:47:24 · 3567 阅读 · 1 评论 -
使用pandas操作DataFrames(一)
在本课程中,学习如何利用pandas极其强大的数据处理引擎来充分利用数据。 能够从DataFrame中提取,过滤和转换数据以深入挖掘真正重要的数据非常重要。 pandas库有许多技术可以使这个过程高效直观。 将学习如何通过旋转或融合以及堆叠或取消堆叠DataFrame来整理,重新排列和重构数据。 这些都是成为全面的数据科学家的基础下一步,将学到的所有概念应用于实际数据集。目录第一部分:提取...原创 2018-12-25 17:58:29 · 1227 阅读 · 0 评论 -
python入门(四)
目录方法 1:安装 Anaconda方法 2:安装 Python运行 Python 脚本!!错误和异常导入本地脚本标准库推荐模块导入模块技巧模块、软件包和名称第三方库实用的第三方软件包获取所需的信息如何搜索在线资源的优先级方法 1:安装 Anaconda对于数据分析学员,强烈建议采用这种 Python 安装方式。如果你对数据科学方...原创 2019-01-03 16:53:58 · 529 阅读 · 0 评论 -
pandas基础(二)
第二部分探索性数据分析在学习了如何提取和检查数据之后,接下来将在视觉上和数量上进行探索。 这个过程称为探索性数据分析(EDA),是任何数据科学项目的重要组成部分。 pandas有强大的方法,有助于统计和视觉EDA。 在本部分,学习如何以及何时应用这些技术。一、视觉探索性数据分析1.1 pandas 线图.plot()方法默认情况下会将Index值放在x轴上。 在本练习中,您将练习在...原创 2018-12-25 17:55:04 · 391 阅读 · 0 评论 -
Win8安装Anaconda3及各种包遇到的问题
目录问题1:Error: Path C:\Anaconda3 is not writable .Please check peimissions or try respawning the installer with elevated privileges.问题2:安装完Anaconda后在开始的菜单中没有Anaconda文件夹怎么办?可以参考以下链接。安装 Anaconda安装Be...原创 2018-12-17 23:56:55 · 7268 阅读 · 0 评论 -
python数据清洗(五)
案例分析应用学到的所有数据清理技术,以整理从Gapminder Foundation获得的真实世界,混乱的数据集。 完成后,可以拥有干净整洁的数据集,还可以使用Python的强大功能开始处理自己的数据科学项目!1.1 探索性分析每当获得新数据集时,第一个任务应该是进行一些探索性分析,以便更好地理解数据并对任何潜在问题进行诊断。19世纪的Gapminder数据已加载到名为g1800s的D...原创 2018-12-17 13:08:56 · 929 阅读 · 0 评论 -
python数据清洗(四)
第四部分 清洗数据进行分析深入了解数据清理的一些重要方面。 学习字符串操作和模式匹配以处理非结构化数据,然后探索处理丢失或重复数据的技术。 学习以编程方式检查数据的一致性的技能,用以确信代码正确运行并且分析结果可靠!一、数据类型·1、转换数据类型了解如何确保DataFrame中的所有分类变量属于category,category可以减少内存使用量。tips数据集已加载到名为tips...原创 2018-12-10 17:54:35 · 2303 阅读 · 0 评论 -
pandas入门
目录Pandas 简介下载 PandasPandas 版本Pandas 文档为何要使用 Pandas?创建 Pandas Series访问和删除 Pandas Series 中的元素对 Pandas Series 执行算术运算创建 Pandas DataFrame使用Pandas Series 字典创建 DataFrame使用列表(数组)字典创建 Dat...原创 2019-01-08 18:02:27 · 829 阅读 · 0 评论 -
使用pandas操作DataFrames(二)
目录第二部分:高级索引一、索引对象和标记数据1.1 索引值和名称1.2 更改DataFrame的索引1.3 更改索引名称标签1.4 构建索引,然后构建DataFrame二、层次化索引2.1 使用MultiIndex提取数据2.2 设置和排序MultiIndex2.3 使用.loc []和非唯一索引2.4 索引MultiIndex的多个级别第二部分:高...原创 2018-12-25 17:58:43 · 502 阅读 · 0 评论 -
python入门(二)
For 循环Python 有两种类型的循环:for 循环和 while 循环。for 循环用来遍历可迭代对象。可迭代对象是每次可以返回其中一个元素的对象,包括字符串、列表和元组等序列类型,以及字典和文件等非序列类型。你还可以使用迭代器和生成器定义可迭代对象。我们来了解下 for 循环的各个组成部分。请看下面的示例:# iterable of citiescities = ['n...原创 2019-01-02 18:52:14 · 477 阅读 · 0 评论 -
python入门(一)
目录算术运算符列表元组集合字典和恒等运算符复合数据结构算术运算符算术运算+ 加 - 减 * 乘 / 除 % 取模(相除后的余数) ** 取幂(注意 ^ 并不执行该运算,你可能在其他语言中见过这种情形) // 相除后向下取整到最接近的整数print(3**2)print(4//3)print(-4//3)print(4/3)prin...原创 2019-01-02 18:52:04 · 283 阅读 · 0 评论 -
python入门(三)
目录变量作用域Lambda 表达式Lambda 与 MapLambda 与 Filter迭代器和生成器变量作用域变量作用域是指可以在程序的哪个部分引用或使用某个变量。在函数中使用变量时,务必要考虑作用域。如果变量是在函数内创建的,则只能在该函数内使用该变量。你无法从该函数外面访问该变量。# This will result in an errordef so...原创 2019-01-02 18:52:24 · 257 阅读 · 0 评论 -
pandas基础(三)
第三部分 pandas的时间序列在本章中,学习如何使用Pandas操作和可视化时间序列数据。 将熟悉诸如上采样,下采样和插值等概念。 练习使用Pandas的方法链来有效地过滤数据并执行时间序列分析。 从股票价格到航班时间,时间序列数据可以在各种各样的领域中找到,并且能够有效地使用这些数据可以是非常宝贵的技能。...原创 2018-12-25 17:58:05 · 177 阅读 · 0 评论 -
pandas基础(一)
目录 第一部分:数据摄取和检查一、NumPy和pandas一起工作二、重头构造DataFrame1、Zip列表以构建DataFrame2、标记数据3、使用广播构建DataFrame三、导入和导出数据1、读一个平面文件2、分隔符,标题和扩展名(Delimiters, headers, and extensions)第一部分:数据摄取和检查了解Panda...原创 2018-12-25 17:52:47 · 354 阅读 · 0 评论 -
使用pandas操作DataFrames(四)
第四部分:数据聚合与分组在本章中,学习如何按组或类别识别和拆分DataFrame,以进行进一步的聚合或分析。 学习如何转换和过滤数据,包括如何检测异常值和估算缺失值。 了解如何有效地将数据分组到pandas中可以成为数据科学工具箱中非常强大的补充。分类和分组按多列分组在本练习中,使用第1章中的泰坦尼克号数据集并使用.groupby()来分析登上泰坦尼克号的乘客的分布情况。'pcla...原创 2018-12-25 17:59:02 · 583 阅读 · 0 评论 -
使用pandas操作DataFrames(三)
目录 第三部分 重新排列和重塑数据一、轴向旋转(Pivoting DataFrames)1.1 透视单个变量1.2 透视所有变量二、堆叠和取消堆叠(Stacking & unstacking DataFrames)2.1 堆叠和拆堆I(Stacking & unstacking)2.2 堆叠和拆堆II(Stacking & unstackin...原创 2018-12-25 17:58:52 · 742 阅读 · 0 评论 -
python数据清洗(三)
连接数据1、组合数据行(Combining rows of data)此处使用的数据集与NYC Uber数据相关。 原始数据集包含所有原始Uber拾取位置的时间和经度。 使用实际数据的一小部分。已预先加载了三个DataFrame:uber1,其中包含2014年4月的数据,uber2(包含2014年5月的数据)和uber3(包含2014年6月的数据)。将这些DataFrame连接在一起,以便 ...原创 2018-12-10 12:24:28 · 569 阅读 · 1 评论 -
python常用函数
本文翻译自文章: Pandas Cheat Sheet - Python for Data Science,同时添加了部分注解。对于数据科学家,无论是数据分析还是数据挖掘来说,Pandas是一个非常重要的Python包。它不仅提供了很多方法,使得数据处理非常简单,同时在数据处理速度上也做了很多优化,使得和Python内置方法相比时有了很大的优势。如果你想学习Pandas,建议先看两个网...转载 2018-12-06 21:16:39 · 195 阅读 · 0 评论 -
python数据清洗(一)
第一部分探索数据 提供在Python中清理数据所需的所有技能,从学习如何诊断问题数据到处理缺失值和异常值。所以你刚刚得到了一个全新的数据集,并且渴望开始探索它。 但是你从哪里开始,你怎么能确定你的数据集是干净的? 本章将向您介绍Python中的数据清理世界! 您将学习如何探索数据,以便诊断异常值,缺失值和重复行等问题。 1、加载和查看数据在本章中,将查看来自NYC Open ...原创 2018-12-06 22:36:29 · 4857 阅读 · 0 评论 -
os模块学习
转自https://blog.csdn.net/you_are_my_dream/article/details/53015698一、os模块概述Python os模块包含普遍的操作系统功能。如果你希望你的程序能够与平台无关的话,这个模块是尤为重要的。举例来说:如果要让windows读取文件路径的函数不需要修改就可以在linux中运行,这个模块必不可少。二、常用方法1、os.name输出字符串指示...转载 2018-06-08 22:35:46 · 323 阅读 · 0 评论 -
NumPy入门(三)
目录 算术运算和广播元素级运算应用数学函数统计学函数NumPy 广播均值标准化数据分离算术运算和广播我们将了解 NumPy 如何对 ndarray 进行算术运算。NumPy 允许对 ndarray 执行元素级运算以及矩阵运算。在这节课,我们将仅了解如何对 ndarray 进行元素级运算。为了进行元素级运算,NumPy 有时候会用到广播功能。广播一词用于描述 ...原创 2018-06-08 20:43:10 · 198 阅读 · 0 评论 -
NumPy入门(二)
目录访问和删除 ndarray 中的元素及向其中插入元素通过索引访问或修改 ndarray 中的元素向 ndarray 中添加元素及删除其中的元素向 ndarray 中插入值将 ndarray 上下堆叠起来,或者左右堆叠ndarray 切片np.copy() 函数一个 ndarray 对另一个 ndarray 进行切片NumPy 内置函数布尔型索引、集合运算...原创 2018-06-08 11:14:44 · 313 阅读 · 0 评论 -
NumPy入门(一)
目录NumPy 简介下载 NumPyNumPy 版本NumPy 文档创建 NumPy ndarray使用内置函数创建 ndarraynp.zeros() 函数np.ones() 函数np.full() 函数np.repeat() 函数np.eye(N)np.diag()--创建对角矩阵np.arange()--创建均匀分布的 ndarrayn...原创 2018-06-06 21:53:26 · 673 阅读 · 0 评论 -
python os模块
总结一下自己用到过的os模块,真的是好容易忘记,慢慢补1.os.listdir(path)import ospath='../../datasets/yanz'os.listdir(path)['y1', 'y10', 'y5']#列举目录下的所有文件名,返回的是列表形式...原创 2018-05-30 16:16:52 · 169 阅读 · 0 评论 -
Python读取指定路径所有.txt文件,将文件内容写入.txt
要处理的.txt如下,举例:文件夹lululu下面包含两个子文件夹,每个子文件夹里包含若干个.txt,每个.txt里有几个特征,我要做的是批量读取这些文本文档,并将这些txt写入到一个新的txt里,并且在每类特征后加入类标签,以便后续处理。代码如下:import globimport osimport tensorflow as tfimport numpy as np...原创 2018-05-30 15:55:54 · 32137 阅读 · 4 评论 -
scipy教程
https://www.yiibai.com/scipy/原创 2018-06-12 20:27:38 · 526 阅读 · 0 评论 -
文件(夹)批量更名、图像批量resize
转自https://blog.csdn.net/lilai619/article/details/50856298起因深度学习,需要大量的测试样本和训练样本,从各处“搜刮”来的数据整合起来,容易遇到:图片名(文件夹)长度不一、中英文数字夹杂、图片尺寸不同等问题,导入深度模型无法正常载入图片。例如:文件夹包含中文、无序图片包含中文正题废话不多说,上代码。。。#!/usr/bin/env pytho...转载 2018-06-05 19:05:35 · 653 阅读 · 0 评论 -
numpy.linspace使用详解
转自:https://blog.csdn.net/you_are_my_dream/article/details/53493752numpy.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)在指定的间隔内返回均匀间隔的数字。返回num均匀分布的样本,在[start, stop]。这个区间的端点可以任意的...转载 2018-06-08 22:42:15 · 15618 阅读 · 0 评论 -
从网页爬取数据
网络是丰富的数据来源,您可以从中提取各种类型的见解和发现。 在本部分,学习如何从Web获取数据,无论是存储在文件中还是HTML中。 您还将学习抓取和解析Web数据的基础知识从网上导入平面文件1、从网上导入平面文件从Web导入了一个文件,将其保存在本地并将其加载到DataFrame中。导入文件是来自加州大学欧文分校机器学习库的“winequality-red.csv”。 该平面...原创 2018-12-19 11:01:36 · 29278 阅读 · 1 评论 -
用python导入数据(三)
关系型数据库1、启动SQL引擎。 将创建一个引擎以连接到工作目录中的SQLite数据库'Chinook.sqlite'。# Import necessary modulefrom sqlalchemy import create_engine# Create engine: engineengine = create_engine('sqlite:///Chinook.sqlit...原创 2018-12-06 11:55:10 · 586 阅读 · 0 评论 -
用Python导入数据(二)
有许多数据类型无法轻松保存到平面文件,例如列表和词典。 如果希望文件是人类可读的,可能希望以巧妙的方式将它们保存为文本文件。JSON适用于Python词典。但是,如果只想将它们导入Python,则可以序列化它们。 所有这些意味着将对象转换为字节序列或字节流。1、导入pickle包,从文件中打开以前的pickle数据结构并加载它。# Import pickle packageimpo...原创 2018-12-06 11:19:12 · 3196 阅读 · 0 评论 -
用Python导入数据(一)
在本部分中,学习将数据导入Python的多种方法:(i)来自平面文件,如.txts和.csvs;(ii)从原生到其他软件的文件,如Excel电子表格,Stata,SAS和MATLAB文件;(iii)来自关系数据库,例如SQLite和PostgreSQL。平面文件(flat file)是去除了所有特定应用(程序)格式的电子记录,从而使数据元素可以迁移到其他的应用上进行处理。这种去除电子数...原创 2018-12-05 22:36:07 · 58657 阅读 · 0 评论 -
剑指offer——python实现(面试必备)
原文:http://blog.csdn.net/u012505432/article/details/52071537特别感谢原文作者,转载过来,深入研究!2018年8月26日,开始刷题从剑指offer开始,python实现! 数据结构markdown格式链表及常见操作平衡查找树AVL三种方法检测变位词Anagram构建堆二分查找二叉查找树二叉树冒泡...转载 2018-08-26 14:27:17 · 131 阅读 · 0 评论 -
UnicodeEncodeError: 'utf-8'codec can't encode character'\udcd5'in position 26:surrogates not allowed
之前一直好好运行的程序突然出现了bug,然后百度后说是路径名的问题,的确是啊。。。。一言难尽,被自己蠢哭,没在意改了一个文件名,浪费了一天时间。...原创 2018-06-19 12:06:13 · 3357 阅读 · 2 评论 -
利用python进行数据分析——matplotlib学习笔记(2)
一、颜色、标记(marker)和线型matplotlib的plot函数接受一组X和Y坐标,还可以接受一个表示颜色和线型的字符串缩写。例如要根据xy绘制绿色虚线,代码如下:import matplotlib.pyplot as pltx=[1,2,3]y=[5,7,4]plt.plot(x,y,'g--') # plt.plot(x,y,linestyle='--',color='g')效...原创 2018-06-10 22:55:47 · 826 阅读 · 0 评论 -
利用python进行数据分析——matplotlib学习笔记(1)
matplotlib是一个用于创建出版质量图表的绘图包(主要是2D方面);目的是为python构建一个Matlab式的绘图接口;pyplot模块包含了常用的matplotlib API函数,其通常的引入约定为 import matplotlib.pyplot as plt;figure, Matplotlib的图像均位于figure对象中,不能通过一个空的Figure绘图;subplot,figu...原创 2018-06-10 21:34:51 · 931 阅读 · 0 评论 -
PYTHON学习路径计划图整理
转自:https://blog.csdn.net/bjash/article/details/73527149PYTHON学习路径计划图Python工作环境及基础语法知识了解对于Python基础语法学习部分,学习周期大概为4周,需要的相关资源在网络上都能找到免费的资源,而且质量都不错。相关中文资源如下:1.python工作集成环境包Python(x,y): 下载地址Pycharm: 下载地址2.p...转载 2018-06-11 11:14:16 · 372 阅读 · 0 评论