Python
文章平均质量分 63
半吊子Py全栈工程师
失败的人只有一种,就是在成功之前放弃的人。
展开
-
破解有道翻译反爬虫机制
破解有道翻译反爬虫机制web端的有道翻译,在之前是直接可以爬的。也就是说只要获取到了他的接口,你就可以肆无忌惮的使用他的接口进行翻译而不需要支付任何费用。那么自从有道翻译推出他的API服务的时候,就对这个接口做一个反爬虫机制(如果大家都能免费使用到他的翻译接口,那他的API服务怎么赚钱)。这个反爬虫机制在爬虫领域算是一个非常经典的技术手段。那么他的反爬虫机制原理是什么?如何破解?接下来带大家一探究...原创 2018-06-02 19:30:50 · 877 阅读 · 0 评论 -
xpath etree 异常
在windows 下,获得服务器端返回的json数据,然后在json数据中取出 html ,结果使用xpath 解析,结果异常最后发现是windows 系统中 将/ 解析成\/ 产生的异常只需要进行html.replace("\\/","/")就行...原创 2018-11-26 15:59:09 · 815 阅读 · 0 评论 -
CSV 文件 写入引号 和 换行
问题:需要在csv文件中写入 双引号 和 换行解决,在需要写双引号的地方在加一个双引号 进行转义,这一格的数据是必须用双引号括起来的,参考文档:https://tools.ietf.org/html/rfc4180...原创 2018-11-09 18:48:50 · 7521 阅读 · 0 评论 -
汽车之家爬虫(autohome)
项目的请求url类型https://k.autohome.com.cn/detail/view_01cezq86y568r3ad1m6ws00000.html?st=4&piap=0|3170|0|0|1|0|0|0|0|0|1#pvareaid=2112108 以前有写过汽车之家的爬虫,但是有一段时间没有爬了,所以网站也更新了。 现在2018.8.23号的情况是这样,请求...原创 2018-08-23 18:13:57 · 7058 阅读 · 0 评论 -
pytesseract psm 选项参数
最近写*车之家的爬虫,遇到动态,扭曲的自定义字符,以前直接比对不变的字符部分已经不行了,想了半天,对字符的操作不是很了解,所以就想到用orc来直接识别好了遇到问题,使用pytesseract进行操作的时候,添加了中文的语言的选项,但是不添加psm参数时,识别不出来。经过一番查找 找到应该加上--psm 8 ,将整个图像当初一个汉字来操作 Page segment...原创 2018-08-17 11:40:34 · 18368 阅读 · 0 评论 -
mysql存储utf-8数据时有表情问题
从网络中取下的数据解析后不能插入数据库,提示某个字段有问题,问题提示如下: 1 SQLException: Incorrect string value: '\xF0\x9F\x98\x84' for column 'wei_content' at row 1 查阅资料后发现,是由于emoji字符和数据库有差异,不能直接存储解决方案一:将内容中...原创 2018-08-02 10:23:38 · 662 阅读 · 0 评论 -
python 编码问题
字符串编码一直是令人非常头疼的问题,尤其是我们在处理一些不规范的第三方网页的时候。虽然Python提供了Unicode表示的str和bytes两种数据类型,并且可以通过encode()和decode()方法转换,但是,在不知道编码的情况下,对bytes做decode()不好做。对于未知编码的bytes,要把它转换成str,需要先“猜测”编码。猜测的方式是先收集各种编码的特征字符,根据特征字符判...转载 2018-07-25 10:28:00 · 456 阅读 · 0 评论 -
有道登陆解密
简单分析网页,可以发现password是通过加密在传输我们开启debug调试,找到加密的js文件,拷贝下来,然后在我们程序中调用js文件得到返回值成功登陆import requestsimport execjs# http://account.youdao.com/login老接口地址url = "https://logindict.youdao.com/login/acc/login"...原创 2018-06-02 16:00:46 · 806 阅读 · 0 评论 -
转载:备份chromedriver版本
chromedriver安装直接使用PIP安装1 pip install selenium用浏览器浏览器的浏览器来测试1 from selenium import webdriver2 3 browser = webdriver.Chrome()4 browser.get('http://www.baidu.com/')运行这段代码,会自动打开浏览器,然后访问百度。...转载 2018-10-30 18:15:53 · 277 阅读 · 0 评论 -
Python的 eval函数的妙用和滥用
eval()函数十分强大,官方demo解释为:将字符串str当成有效的表达式来求值并返回计算结果。so,结合math当成一个计算器很好用。其他用法,可以把list,tuple,dict和string相互转化。见下例子:[python] view plain copya = "[[1,2], [3,4], [5,6], [7,8], [9,0]]" b = eval(a) b Out[...转载 2018-05-29 21:14:13 · 2124 阅读 · 0 评论 -
微信自动回复和群聊消息完善
将数据添加到服务器mysql中,增加群聊消息,增加图灵机器人回复消息import osimport jsonimport itchatimport requestsimport pprintimport timeimport randomfrom pymysql import *from itchat.content import *# 2.支持的微信消息类型:TEXT文本, ...原创 2018-06-05 00:26:20 · 1376 阅读 · 3 评论 -
python实现微信接口(itchat)
20python实现微信接口(itchat)安装sudo pip install itchat登录itchat.auto_login() 这种方法将会通过微信扫描二维码登录,但是这种登录的方式确实短时间的登录,并不会保留登录的状态,也就是下次登录时还是需要扫描二维码,如果加上hotReload==True,那么就会保留登录的状态,至少在后面的几次登录过程中不会再次扫描二维码,该参数生成一个静态文件...转载 2018-06-04 14:49:43 · 2918 阅读 · 0 评论 -
微信Python自动回复代码
首先 ,这个代码基于itchat这个库 ,如果需要安装 ,只需要pip3 install itchat 就能安装成功如何我们直接在这个库的基础上,在进行2次开发 这里 直接 上代码,有需要代码的可以q我运行结果放到服务器上就能一直跑了#!/usr/bin/env python3"""【程序功能说明】1.程序主要利用itchat库实现了微信聊天自动回复功能,添加了weather、package...原创 2018-06-04 01:27:01 · 2983 阅读 · 3 评论 -
获取微医评论数据
简单获取微医的数据,只公开60页数据,下一页的time和sign能在当前页面获取到就诊医生需要注意,分2种,一直是有a标签包裹,一直直接是span标签包裹,需要对每个评论单独处理今天就不写存数据库,和多线程了~,import requestsimport reimport timeimport randomfrom lxml import etreeclass WeiYi(objec...原创 2018-06-02 23:22:58 · 1071 阅读 · 0 评论 -
python 操作 excel 文件
官方 地址 :http://www.python-excel.org/使用xlsxwriter (只能写 不能读取)来进行写成.xlsx文件可以使用xlrd 写成 xls 文件简单 demo 如下:import xlsxwriter, csv# 创建excel 对象workbook = xlsxwriter.Workbook('Expenses03.xlsx')...原创 2019-01-16 14:45:18 · 362 阅读 · 0 评论