python中的utils模块_python常用方法utils

always

目录里主要封装了一些自己常用的方法

1. doc2txt

** 本函数主要目的是方便在写爬虫的时候遇到word附件,下载后直接提取出文本文件。

注意:需要安装antiword

mac下: brew install antiword

2. find_path_in_json

** 本函数主要目的是方便在遇到大json时候,查找value是否存在于json中,返回其在json里的路径。

3. pyheader

** 本模块主要是方便写爬虫的时候,将fiddler里的raw也就是原始请求,转换成python字典(目前只支持mac、win7、win10)。

比如fiddler里抓到的原始请求是:

GET https://test.com/address/address?callback=jQuery1102092&v=0.43041341799949273&areaid=0&_=1523927277183 HTTP/1.1

Host:test.com

Connection: keep-alive

User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36

Accept: */*

Referer: https://myi.vip.com/address.html?ff=103|2|2|4

Accept-Encoding: gzip, deflate, br

Accept-Language: zh-CN,zh;q=0.9

Cookie: cps=adp%3Auopxvvef%3A%3A%3A%3A; vip_first_visitor=1;

直接copy原始请求(command+c)

先安装pyheader

python setup.py install

安装成功之后

执行

pyheader

然后随便找个文本编辑器粘贴(command+v)

{

"callback": "jQuery110209262651116238236_1523927277176",

"areaid": "0",

"_": "1523927277183",

"v": "0.43041341799949273"

}

{

"Accept-Language": "zh-CN,zh;q=0.9",

"Accept-Encoding": "gzip,deflate,br",

"Connection": "keep-alive",

"Accept": "*/*",

"User-Agent": "Mozilla/5.0(WindowsNT6.1;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/65.0.3325.181Safari/537.36",

"Host": "test.com",

"Referer": "https://myi.vip.com/address.html?ff=103|2|2|4"

}

请求参数和header都出来了

4. download_with_progress

** 本模块主要是方便使用requests下载一些比较大的文件的时候。加个友好的进度条如下:

fetch baidu python img [####################################] 100%

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值