Pandas一些小技巧

Pandas有一些不频繁使用容易忘记的小技巧

1、将不同Dataframe写在一个Excel的不同Sheet,或添加到已有Excel的不同Sheet(同名Sheet会覆盖)

from pandas import ExcelWriter

#在单个文件中不同df写入对应不同的的工作表
with ExcelWriter('path_to_file.xlsx') as writer:
    df1.to_excel(writer, sheet_name='Sheet1')
    df2.to_excel(writer, sheet_name='Sheet2')

#附加到已有的Excel文件
with ExcelWriter('path_to_file.xlsx', mode='a') as writer:
    df.to_excel(writer, sheet_name='Sheet3')

 

2、建立索引,修改索引,重建索引,删除索引,索引---->列,列---->索引

  •  建立索引  列---->索引
import pandas as pd

#DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False)
  #key:标签或者数组(Series, Index,np.ndarray),复合索引则把标签或数组放在list中
  #drop:删除作为新索引的列
  #append :将列附加到现有的索引
  #inplace :是否修改Dataframe

df = pd.DataFrame({'month': [1, 4, 7, 10],
                   'year': [2012, 2014, 2013, 2014],
                   'sale': [55, 40, 84, 31]})
#列转索引
df.set_index('month')

#多列转复合索引
df.set_index(['year', 'month'])

#设置列与另一索引为复合索引
df.set_index([pd.Index([1, 2, 3, 4]), 'year'])

#使用Series建立索引
s = pd.Series([1, 2, 3, 4])
df.set_index([s, s**2])

 

  • 重建/删除索引    索引---->列
#原索引转列,重建递增索引
df.reset_index()

#删除原索引、重建默认递增索引
df.reset_index(drop=True)

#行多索引子索引转列多索引的某一层级的列,默认为最高级,若插入其他等级,col_fill为指定最高级索引,若不存在,则创建
df.reset_index(level='class', col_level=1, col_fill='genus')

 

  • 修改索引
import pandas as pd
import numpy as np

#DataFrame.reindex(labels = None,index = None,columns = None,axis = None,method = None,copy = True,level = None,
            fill_value = nan,limit = None,tolerance = None)
#reindex相当于对DataFrame的架构(index或者column)筛选或者补充,即如果原df存在相应的 ##索引或列,就保留,没有则为NAN,函数有一系列填充NAN的方法(不止固定填充某值,非操作原始数据NAN)

index = ['Firefox', 'Chrome', 'Safari', 'IE10', 'Konqueror'] df = pd.DataFrame({ 'http_status': [200,200,404,404,301], 'response_time': [0.04, 0.02, 0.07, 0.08, 1.0]}, index=index) #重新索引行 new_index= ['Safari', 'Iceweasel', 'Comodo Dragon', 'IE10','Chrome'] df.reindex(new_index, fill_value='missing') #重新索引列 df.reindex(columns=['http_status', 'user_agent']) #展示对索引中产生的NAN的填充功能 date_index = pd.date_range('1/1/2010', periods=6, freq='D') df2 = pd.DataFrame({"prices": [100, 101, np.nan, 100, 89, 88]},index=date_index) date_index2 = pd.date_range('12/29/2009', periods=10, freq='D') df2.reindex(date_index2) #第一个有效值以填充之前的NaN值 df2.reindex(date_index2, method='bfill') #.reindex_like #等价于.reindex(index=other.index, columns=other.columns,...)

 

3、读取有BOM头的文档(Windows有的软件会在首行添加看不见的BOM头,导致文件处理出错)

import pandas as pd

df=pd.read_csv("test.csv",sep="\t",encoding="utf-8-sig",engine="python")

#即编码改成有BOM头的即可

 

4、在Pandas读取csv的时候报 field larger than field limit (131072) 这样的错误

  •   从报错上来说,这是说字段大小超过限制了,但是一般来说,我们的字段通常是不会超过限制的,如果超过了,就应该反思数据结构是不是适合csv的格式了,所以除了这个,很有可能是解析的方式出了问题,我遇到过一个例子,通过改变Quote行为解决的
import pandas as pd

df = pd.read_csv('test.csv',sep='\t',encoding='utf-8-sig',quoting=3)

#quoting:控制引用字符引用行为,QUOTE_MINIMAL (0), QUOTE_ALL (1), QUOTE_NONNUMERIC (2) or QUOTE_NONE (3).
  •   但是如果csv的字段就是那么的大,可以使用下述DirtyCode进行拓展限制的处理
import pandas as pd

maxInt =pd.io.parsers.sys.maxsize
while True:
    try:
        pd.io.parsers.csv.field_size_limit(maxInt)
        break
    except OverflowError:
    #这里主要是因为Python的Int的大小是远大于C的,当不满足的时候,除以2
        maxInt = maxInt>>1

 

5、未完待续... ...

转载于:https://www.cnblogs.com/shld/p/10580403.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
以下是100个Python技巧: 1. 使用for循环可以遍历列表、字符串等可迭代对象。 2. 使用range()函数生成指定范围的数字序列。 3. 使用enumerate()函数可以同时获得元素索引和值。 4. 使用zip()函数可以同时遍历多个可迭代对象。 5. 使用列表推导式可以快速生成列表。 6. 使用集合可以进行高效的集合操作。 7. 使用字典可以进行键值对的映射。 8. 使用切片可以快速获取列表、字符串的子序列。 9. 使用函数可以封装可复用的代码块。 10. 使用类可以实现面向对象的编程。 11. 使用模块可以组织和管理代码。 12. 使用异常处理可以捕获和处理程序的错误。 13. 使用with语句可以自动管理资源的释放。 14. 使用装饰器可以增强函数的功能。 15. 使用生成器可以按需计算大量数据。 16. 使用协程可以实现异步编程。 17. 使用多线程可以并发执行任务。 18. 使用多进程可以充分利用多核处理器。 19. 使用文件操作可以读写文件。 20. 使用正则表达式可以进行复杂的文本匹配。 21. 使用time模块可以获取当前时间和进行时间操作。 22. 使用random模块可以生成随机数。 23. 使用math模块可以进行数学运算。 24. 使用json模块可以进行JSON数据的处理。 25. 使用pickle模块可以进行对象的序列化和反序列化。 26. 使用os模块可以进行文件和目录的操作。 27. 使用sys模块可以获取和修改Python解释器的运行时环境。 28. 使用re模块可以进行正则表达式匹配。 29. 使用argparse模块可以解析命令行参数。 30. 使用logging模块可以进行日志记录。 31. 使用unittest模块可以编写和执行单元测试。 32. 使用requests库可以发送HTTP请求。 33. 使用BeautifulSoup库可以解析HTML文档。 34. 使用numpy库可以进行数组和矩阵计算。 35. 使用pandas库可以进行数据处理和分析。 36. 使用matplotlib库可以进行数据可视化。 37. 使用scikit-learn库可以进行机器学习。 38. 使用tensorflow库可以进行深度学习。 39. 使用flask库可以构建Web应用。 40. 使用Django库可以构建全功能的Web应用。 41. 使用SQLite数据库可以进行轻量级的数据存储。 42. 使用MySQL数据库可以进行关系型数据存储。 43. 使用MongoDB数据库可以进行文档型数据存储。 44. 使用Redis数据库可以进行缓存和键值存储。 45. 使用Elasticsearch可以进行搜索和分析。 46. 使用OpenCV库可以进行图像处理和计算机视觉。 47. 使用pygame库可以进行游戏开发。 48. 使用tkinter库可以进行桌面应用程序开发。 49. 使用wxPython库可以进行跨平台的GUI开发。 50. 使用Flask-RESTful可以构建RESTful API。 51. 使用Celery可以进行异步任务的调度和执行。 52. 使用pytest可以进行更简洁和灵活的单元测试。 53. 使用Selenium可以进行Web自动化测试。 54. 使用Faker可以生成随机的测试数据。 55. 使用IPython可以进行交互式的开发和调试。 56. 使用Jupyter Notebook可以进行数据分析和可视化。 57. 使用Spyder可以进行科学计算和Python开发。 58. 使用cookiecutter可以快速构建项目模板。 59. 使用virtualenv可以创建和管理Python虚拟环境。 60. 使用pip可以安装和管理Python包。 61. 使用pyenv可以管理多个Python版本。 62. 使用conda可以创建和管理Python环境。 63. 使用autopep8可以自动格式化Python代码。 64. 使用black可以自动格式化Python代码。 65. 使用flake8可以检查Python代码是否符合PEP8规范。 66. 使用bandit可以检查Python代码中的安全漏洞。 67. 使用isort可以自动排序Python导入语句。 68. 使用mypy可以进行静态类型检查。 69. 使用pylint可以进行代码质量检查。 70. 使用pyinstaller可以将Python程序打包成可执行文件。 71. 使用cx_Freeze可以将Python程序打包成可执行文件。 72. 使用py2exe可以将Python程序打包成可执行文件。 73. 使用pyodbc可以连接和操作数据库。 74. 使用paramiko可以进行SSH远程操作。 75. 使用fabric可以进行任务的自动化部署。 76. 使用pytest-django可以简化Django的单元测试。 77. 使用django-rest-framework可以快速构建RESTful API。 78. 使用scrapy可以进行Web爬虫。 79. 使用sqlalchemy可以进行高级数据库操作。 80. 使用pymongo可以连接和操作MongoDB数据库。 81. 使用tqdm可以在循环中显示进度条。 82. 使用click可以构建命令行接口。 83. 使用cProfile可以进行性能分析。 84. 使用line_profiler可以逐行分析代码性能。 85. 使用memory_profiler可以分析内存使用情况。 86. 使用profilehooks可以进行分析函数调用性能。 87. 使用PyInstaller可以将Python程序打包成可执行文件。 88. 使用Openpyxl可以读写Excel文件。 89. 使用Pillow可以进行图像处理。 90. 使用pyautogui可以进行图像识别和自动化操作。 91. 使用pytesseract可以进行文字识别。 92. 使用pywin32可以操作Windows系统API。 93. 使用pyserial可以进行串口通信。 94. 使用opencv-python可以进行图像处理。 95. 使用catboost可以进行梯度提升决策树算法。 96. 使用fasttext可以进行文本分类和词向量训练。 97. 使用gensim可以进行文本相似度计算。 98. 使用jieba可以进行中文分词。 99. 使用lightgbm可以进行梯度提升算法。 100. 使用xgboost可以进行梯度提升算法。 这些小技巧涵盖了Python的各个方面,包括语法、标准库、第三方库和常见开发任务。通过学习和应用这些技巧,可以提高Python编程的效率和质量。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值