python 上传文件_使用python上传文件时的若干经验总结

从学习并使用python已有一年半了,初衷是用它爬取数据、资料等。由于平时上传文档赚一些外快,不可避免的需要上传各类文档到网站,网站基本不提供上传工具,在第三方的上传工具,基本都需要几百元一个,有些又有缺陷,所以今年开始陆续编写了几个网站用的上软件,这样可以根据自己的意愿去实现一些功能,不过由于掌握知识并不全面,没有做UI,只是纯代码,所以本文也不会有软件的相关截图。为了留下个记录,同时也分享各位小伙伴,所以将过程中相关知识点作个总结。

addf7cca2841bada1a08ae0f82c2c19a.png

1、并不是所有工具都要保持session

虽然python的request具有保持session的功能,此功能可用来将cookie等信息传递在各网页之间,这样可实现保持登录的效果。但我总是不好实际,如果工具只是自己用的话,可以直接将cookie放到自定义的headers中,免去啃一些太硬的骨头。

我的作法是定义一个字典,内放需要传到类中的参数:

params = {    'upload_path':'e:/newdoc/',    'thread':1,    'price':5,    'cookie':'这里粘贴cookie',}

在类里的init()方法中,会初始化一些要用到的变量,包括request用到的headers:

self.upload_page_headers = {    'Cookie':self.cookie,    'Host': '*************',    'Referer': '**********************',    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36',}

2、不是任何加密数据都需要去解密

request的post或是get方式提交数据时,大多都有一些一看上去就是加了密的数据,但并不每个数据都需要你去找js来解密,大多数都在网页里的js代码中存放着,只需要读取网页内容,并使用正则或xpath等就可以取出来用,而且很多都是不会变化的(也有很大一部分是要变化的,但只需要去相关页面获取到即可)。

当你遇到提交的数据中有类似加密数据时,第一应该做的就是打开网页源码,然后在其中搜索该数据,如果你想验证该数据是否变化,那你可以刷新网页或是退出帐号再重新登录,基本上就可以确定这个数是否会变了。

50b17b851aa5282b2724b8940d3476e5.png

3、关于Content-Type

上传文件的话,就会用到MultipartEncoder,同时需要在headers中添加Content-Type,经常将headers的定义放在init方法中,这里还没有MultipartEncoder,那么可以将Content-Type=’’,以之后再通过m.content_type添加数据:

9b64f4d9ec2a6ede047e587742e3931c.png
e6255bcc9c8167ed8db142311aefff5c.png

4、关于多线程

我在程序中会设计成可以调整线程的方式,有些网站会容许多线程上传(不过大多都不希望),所以即使多线程上传,也要控制好,数量尽量少一些,每个过程结束时加个time.sleep(),以保持自己不被封IP或是封号。

技术上我是个实用主义者,所以至今我也没有搞明白(也没想去搞明白)线程、协程、进程等究竟的区别,只要比单线程快感觉就可以了,毕竟对于上传来说,太快没有啥有益之处,最大的可能就是被干掉。

c564276cbc1f49bb868114d41906472a.png

5、关于列表推导式

最初在书上看到列表推导式时,我是直接跳过了的;后来编写程序时我都是用的书上的标准的写法,一般实现一个简单功能都会写好几行,我一直记得别人说的要写注释,不然几个月后就看不懂自己写的了,但同时我又在想,我写的这么多行,应该不会不记得吧,后来才知道别人是说的复杂的代码,我写的这种估计不用注释都可以。

后来在网上看到说如果用python而不会写推导式,就等于是没学过python,为了挽回用了一年多python的面子,偶尔用了用推导式,逐渐一发不可收拾,因为这东西太好用了,像上图中第一行代码就是一个获得某文件夹下所有文件的文件名的一个列表的推导式,当然推导式不太容易理解,就像我刚写这一长句话一样。

6、使用 re时

我以前是这样使用的:

self.id = re.findall('id="ctl00_Content_HiddenID" value="(.*?)"',result.text)[0]

后来老师(怕自学学不多,然后又交了7千RMB去网校学习)在教学时,教如下用:

self.id = ''.join(re.findall('id="ctl00_Content_HiddenID" value="(.*?)"',result.text)[0])

这样即使未找到数据也不会出错了。

7、关于https

现在提交数据的网站都是https开头的,所以在使用request提交时,需要加一个verify=False,但在pycharm的下面显示区域还是会出现红色的提示,我们在request前加上

requests.packages.urllib3.disable_warnings()

这样就不会再出现提示语句了。

8、MultipartEncoder

上传文件需要用到MultipartEncoder,关于其的使用我了解不多,都是从网上搜来的,而且是遇到通不过时我才会去搜索。

所有库我都没有说要导入啥、安装啥,因为在pycharm中,如果你用到了新的库但又没有安装的话,那你只需要alt+回车即可。

如果网站上传文件时,使用webForms得到的是content-type=multipart/form-data,name=’Filedata’;filename=’xxxxx’,而value侧则是xbxc啥的

那应如下构造:

69ae70a55c040dbecb601fc4867f5706.png

有时网站的webForm中还可能是这样的:

name=’UpUpFile1’;filename=’’,同时value也是一片空白,这也是我今天花的时间最多的地方,那么应该这样写:

c89adbf354373f262e379b7423b82c1c.png

9、注意每一个变量名

不知是程序员编写时写错了还是故意这样写的,这儿可能应是FileName的,给写成了FileName,如果你顺手给写对了,那可能你半天都找不到错在了哪里。

9528905937188a4e0c90c5ddcb08a417.png

10、用上try-except

上课时老师教用多种except,但我就只会用一种,就是try: except:我感觉这个超好用,因为我爬取数据或上传啥的,都不要求100%,只要搞定90%以下就好了,所以偶尔有产生错误我也并不去深究,此时就直接try except,如果一定要知道点啥,那就 try except Exception as e:

11、关于python中的日期

日期对于我也是一个谜一样的领域,在python中感觉比较头痛,下面这个方法我经常到处复制来使用,date这个参数是传入的时间戳,即time.time(),最后会输出一个年月日的字符串,因为我经常要用SQL语句,所以需要将日期转为字符串。

def getDate(self,date):    timeArray = time.localtime(int(date))    return time.strftime("%Y-%m-%d", timeArray)
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值