- 博客(13)
- 问答 (3)
- 收藏
- 关注
原创 Python将csv中每一行的数据转化为字典
第一种方法:使用pandas模块import pandas as pd# 第一种情况""" header=0 是默认值,将默认将csv文件的第一行作为表头文件"""df = pd.read_csv("统一开小灶.csv", header=0)for line in df.values: dic = {} for item, data in zip(df, line.tolist()): dic[item] = data print(dic) # 第二种情况"""
2022-05-21 14:06:59 5393
原创 Python依次读取Excel文件中的Sheet
利用pandas依次读取excel表格中每个sheet的数据,并按照行进行打印,输出格式为列表主要解决以下问题:读取Excel对每个sheet中的数据单独读取按照行对每一条数据进行读取将读取的数据按照列表格式进行输出import pandas as pddf = pd.read_excel("ceshi.xlsx",sheet_name=None,header=None)for sheet in df: print(sheet) # 每个sheet的名称 for item i
2022-05-17 13:34:17 4108 1
原创 python中转义符导致的文本保存失败
问题描述在字符串中出现反斜杠\,通常会被识别为转义字符,如\n会被识别为换行,如果直接将含有反斜杠的字符串进行保存,可能会造成因为编码问题导致文件保存失败a = '\ud83d'如果对上述字符串直接保存为txt文件,那么无论使用何种编码,都会报编码失败的错误解决办法常规办法如果是将该字符串进行保存,有一个直接方式,即告诉python该字符串中将反斜杠作为字符进行识别,而非转义字符。解决方法有两种方式:方式一:通过添加转义字符a = '\\ud83d'方式二:通过对字符串进行标注a
2022-04-11 19:42:50 1187
原创 极简爬虫(一):爬虫的主要工作
写在前面:本文是对自身python爬虫学习的一个总结。一是尝试将爬虫知识根据自己的知识体系进行重新调整总结。二是可以为其他想了解爬虫知识的同学,对爬虫有一个初步的认知。通过爬虫获取网络数据,主要工作有两个步骤:一是编写请求代码;二是编写获取数据代码。这两个步骤最难的是第一步,在所有的请求中,获取真正的请求url是爬虫的核心工作。而对请求返回的数据进行解析以获得需求数据则需要熟练掌握一到两种工具即可。注:利用python编写网络爬虫程序,需要一定的python基础。如果时间紧张无法快速补
2022-02-02 17:33:21 975
原创 基础爬虫常用代码块
整理一些平时常用的代码块。seleniumfrom selenium.webdriver import Chromefrom selenium.webdriver.chrome.options import Optionsoption = Options()option.add_argument('--disable-blink-features=AutomationControlled') # 关闭网页对自动化浏览器的监测option.add_argument('--disable-gp
2022-01-14 21:52:53 1011
原创 低成本解决因ip被禁导致的爬虫程序中断
问题描述网站的反爬措施越来越严格,各种反反爬措施也不断发展,最有效的反爬措施无异于是通过代理ip池的方法。但是对于学习者或者数据量并不大的同学来说,购买或者维护一个ip池的成本并不低。由此产生了一个想法,作为迫不得已的代替方法。解决思路现在宽带拨号使用的都是动态ip,每次重新拨号,就可以获得一个新的ip,这样就可以勉强解决上述问题。头铁的解决思路:- 我将要爬取的链接用列表进行存储,- 然后大概判断一下几次请求之后就会被封掉(如:单个ip只能连续爬取20次)- 然后以20个为一组,将列表进行
2021-08-30 13:50:29 634
原创 python异步协程爬虫报错:【aiohttp.client_exceptions:ServerDisconnectedError:Server disconnected】的初步解决办法
背景描述:我刚开始接触爬虫,看网上教程开始一点点学习,所有的掌握知识点掌握比较浅,如果有更好的方法欢迎评论分享。初始爬虫非常简单:对一个网页中的数据列表进行爬取,网页返回的格式也非常简单是一个字典形式,直接用.json()保存成字典就可以直接存取。刚开始接触异步协程,做完联系之后,尝试把原来的爬虫进行改造,由此出现报错。初始代码:async def download_page(url): async with aiohttp.ClientSession() as session: async
2021-08-14 12:47:41 14907 23
原创 更改office365Excel导入外部数据默认使用power query
这里写自定义目录标题问题描述解决方法旧版文本导入向导的启用旧版文本导入向导的使用备注问题描述使用office365后,Excel更新到了最新版。在导入外部数据的时候,发现默认使用了power query导入数据,对于我这种小白来说,实在不太友好。毕竟我只是想将文本数据进行分栏,使其更好阅读和处理。因此我更依赖旧版的数据导入方式。解决方法旧版文本导入向导的启用“文本导入向导” 是旧功能,需要手动启用才能使用。 启用方法:1.单击 “文件” > >“选项”>> “数据” 选项
2020-10-15 11:20:35 3906
原创 ODBC数据源无法添加EXCEL驱动,显示存在系统错误代码126:找不到指定模块
问题背景:因为使用R语言导入Excel文件用到RODBC包,但是在使用过程中显示报错(见错误提示),然后打开ODBC数据源【控制面板→(系统和安全→)管理工具→ODBC数据源(64位】进行手动添加,发现仍然无法成功。询问客服,以及查找资料发现仍无法解决,因为这个应该是默认安装的,即如果没有什么特殊设置的话,这个问题应该是不会报错的。微软客服说是应为Office版本导致的(我的电脑...
2019-03-19 16:44:34 8173
原创 如何解决Windows10系统开机提示,没有默认的邮件客户端
如何解决Windows10系统开机提示,没有默认的邮件客户端问题描述现有解决方法本文的方法其他问题问题描述最近,windows10系统开机后,一直提示“没有默认的邮件客户端……”,这对包括我在内的很多人造成了较大的困扰。如图所示:现有解决方法目前,网上给出很多相关的解决办法,有些有用,有些则效果不大。终极大招——重装office究极大招——重装系统以上两种方法,简单粗暴,所有问题...
2018-09-24 18:35:39 32736
空空如也
关于使用xpath获取#html#同级标签的问题
2022-06-29
python怎样对br文件进行解压?
2021-10-11
python3为什么print的内容与存入的内容不同?
2021-07-20
TA创建的收藏夹 TA关注的收藏夹
TA关注的人