python
hi 你好。
…
展开
-
vps搭建代理ip服务
伪装ip是做爬虫比较常见也比较重要的一步。本文记录centos7.6拨号搭建代理ip服务器的过程。一、购买拨号服务器。在服务器测试拨号是否正常用到下面两个命令pppoe-startpppoe-stop如果拨号不正常则需要配置 pppoe-setup 具体步骤自查。二、部署首先安装tinyproxy执行命令 yum -y install tinyproxy找不到安装包的时候可以装一下epel。安装 yum install epel-release安装完成编辑tinyproxy的配置文件原创 2021-07-26 10:19:49 · 8383 阅读 · 0 评论 -
唯品会OAuth api_sign
原创 2021-07-11 20:58:02 · 707 阅读 · 0 评论 -
淘宝商品详情API
待签名参数:{"uid": "", "ttid": "231200@taobao_android_9.16.0", "data": "%7B%22itemNumId%22%3A%22638728868726%22%7D", "lng": "23.366706", "utdid": "X9cv4QJDoRQDAI5/oz4iXVmx", "api": "mtop.taobao.detail.getdetail", "lat": "116.722102", "deviceId": "AhxhysjZJWXCIO原创 2021-05-09 09:41:52 · 21522 阅读 · 2 评论 -
shopee虾皮数据爬取之加密请求头if-none-match参数
'''curl -H 'Host: shopee.com.my' -H 'Cookie: _gcl_au=1.1.206546107.1614132244; _ga=GA1.1.977826963.1614132256; language=zhHans; SPC_IA=-1; SPC_EC=-; SPC_U=-; REC_T_ID=9cf9942a-7644-11eb-b8aa-08f1ea7b38f0; SPC_F=SZDMJvv0IqG3MqPWvZR60swpqexdBkjH; REC_T_ID.原创 2021-04-07 22:12:04 · 2299 阅读 · 6 评论 -
1688商品详情
{data: {DeveloperWechat: "htmlparser",detailModel: {detailUrl: "https://g.alicdn.com/takla-group/app-detail/detail/p/index.html?url=http://img04.taobaocdn.com/tfscom/TB1_IfRqsieb18jSZFvXXaI3FXa",h5DataModel: {picPrivateNoAuth: "false"},offerId: "61原创 2021-03-25 22:54:02 · 759 阅读 · 0 评论 -
拼音转汉字之拼音分割
all_list = ['gu','qiao','qian','qve','ge','gang','ga','lian','liao','rou','zong',\ 'tu','seng','yve','ti','te','jve','ta','nong','zhang','fan','ma','gua','die','gui',\ 'guo','gun','sang','diu'...原创 2019-12-18 09:12:11 · 4523 阅读 · 0 评论 -
python + selenium + chrome 爬取淘宝总结
1、打开浏览器 查看浏览器版本或者直接输入 chrome://version/2、下载浏览器版本对应的chromedriver.exe 下载链接 http://chromedriver.storage.googleapis.com/index.html3、修改chromedriver.exe,使用Notepad++ 打开chromedriver.exe 查找$cdc,把红线框的这部分修改(...原创 2019-12-11 10:38:08 · 990 阅读 · 0 评论 -
numpy数组做 图片拼接(concatenate、vstack、hstack)
在这里插入代码片统一图片大小,保证数组维度一致避免拼接失败。 把图片全部调整成第一张图的宽高def img_size(image_names,width, height): for i in image_names: img = cv2.imread(os.path.join(img_path, i)) img_resize = cv2.resize(...原创 2019-11-06 17:35:15 · 6129 阅读 · 2 评论 -
python 爬取当当网商品价格并写入数据库
python 爬取数据并写入数据库案例:import requestsimport pymysqlimport refrom fake_useragent import UserAgentfrom lxml import etreeua = UserAgent()values = []def spider(db, cursor,key,index): headers ...原创 2019-08-12 14:23:53 · 6315 阅读 · 3 评论 -
python 题目识别截图切分(有道API接口题目坐标识别、PIL截图)
本人用的是python3.7 ,有道接口帮助文档用有 python2.0获取坐标的demo案例完整代码:#!/usr/bin/env python# -*- coding: utf-8 -*-# @version : Python 3.7.3# @Time : 2019/8/15 17:20import uuidimport requestsimport base64...原创 2019-08-16 08:20:03 · 4507 阅读 · 2 评论 -
python 图片二值化后 判断图片是白底黑字,还是黑底白字
纯自己摸索的取巧方法,如哪位大大看到了本文有更好的方法能够指点一下 感激不尽。因某个需求 需要把所以图片二值化 转成白底黑字,所以需要对批量二值化的图片进行判断,如果是黑底白字再进行处理测试代码:from PIL import Imageimage = Image.open(r"F:\studytest\03.jpg") # 二值化后的图片image.getcolors()rgb...原创 2019-08-14 11:12:43 · 10083 阅读 · 2 评论 -
python 图片二值化,skimage库打包后出现You may load I/O plugins with the `skimage.io.use_plugin` command
python 图片二值化,自动获threshold因工作原因,需要处理视频,并把帧图二值化,ocr后按照一定的格式输出成一个word。这里主要记录打包遇到的问题,其他不多说。其中二值化参考:https://blog.csdn.net/t8116189520/article/details/80271804因为是批量的 threshold值不能固定,用到了skimage这个库把上面链接里...原创 2019-08-09 11:44:29 · 6338 阅读 · 2 评论 -
python selenium 爬取百度翻译单词音标
python selenium 小爬虫主要流程 读取excel文件中的单词——利用selenium 去百度翻译中获取单词对应的音标——写入cvs文件selenium 安装 环境配置略过谷歌浏览器打开百度翻译并等待baidu_translate_input加载完成browser = webdriver.Chrome()url = “https://fanyi.baidu.com/?aldt...原创 2019-07-25 15:37:04 · 8013 阅读 · 1 评论 -
python 视频截取 利用ffmpeg截取MP4视频片段
直接上代码。。#!/usr/bin/env python # -*- coding: utf-8 -*- # @version : Python 3.6.6# @Time : 2019/6/13 11:20import subprocessimport osdef cutVideo(): # file_time = ffmpeg.probe(file_name)...原创 2019-06-22 09:51:02 · 12446 阅读 · 10 评论 -
工作中python 操作Word插入图片并ocr识别文字 写入文档,最后打包成exe工具案例记录
#!/usr/bin/env python-- coding: utf-8 --@version : Python 3.6.6@Time : 2019/6/20 11:22from aip import AipOcrfrom docx import Documentfrom docx.oxml.ns import qnfrom docx.shared import Ptf...原创 2019-06-22 09:40:12 · 7381 阅读 · 6 评论