spider
文章平均质量分 93
凤凰传奇的粉丝
这个作者很懒,什么都没留下…
展开
-
我要爬爬虫(3)-解析链接,Robots协议
解析链接我们经常需要对url进行合并,提取,转换等操作,urllib下的parse模块了解一下~解析链接urlparse() 把url解析为一个6元素的列表,包括scheme,netloc,path,params,query,fragment. urlunparse() urlparse的逆操作,把列表转化成url. urlsplit() 和urlparse()函数类似,...原创 2018-05-19 01:51:44 · 548 阅读 · 0 评论 -
我要爬爬虫(15)用appium爬取手机QQ音乐歌名
appium,类似于移动端的selenium,对于移动端的页面进行操作。这里直接下载了安装包进行安装。同时对于我的安卓手机,还需安装android studio。在android studio 里安装Android sdk.将Android sdk的路径保存为Android_Home写进环境变量,sdk文件夹下的tools和platform-tools写入path里。最后要使用andro...原创 2020-04-27 17:59:32 · 916 阅读 · 0 评论 -
我要爬爬虫(12)-识别验证码
常见的几种验证码图形验证码安装tesserocr之后 import tesserocrfrom PIL import Imageimage = Image.open('origin.png') #打开一个图片对象text = tesserocr.image_to_text(image) #从图片中识别文字结果:6mg 因为图中的线条会干扰识别结果,所以需要对图片进行二...原创 2018-09-11 21:09:55 · 400 阅读 · 0 评论 -
我要爬爬虫(11)-用selenium爬取淘宝商品信息
思路就是用selenium操作浏览器,访问淘宝,输入关键词,查找,用pyquery解析目标信息,翻页,存储到mongodb. 函数定义三个:1 打开浏览器,查找初始化,翻页from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support....原创 2018-08-17 17:03:47 · 558 阅读 · 0 评论 -
win10非anaconda的tesserocr安装
对于没使用anaconda的我,是这样安装tesserocr的。 首先安装tesseract,在https://digi.bib.uni-mannheim.de/tesseract/里找到非dev的稳定版本,对应py3.5的tesseract-ocr-setup-3.05.01-20170602.exe。 双击安装后,选择additional language data(download)支持...原创 2018-08-17 14:02:06 · 495 阅读 · 0 评论 -
我要爬爬虫(10)-selenium使用
selenium是一个自动化测试工具,之前实现自动购票的时候就用过,这里再学一遍。就是驱动浏览器执行操作,比如点击,输入,拖拽等等。 selenium下有对应很多浏览器的webdriver,例如browser=webdriver.Chrome()#这里只要实例化,就会打开指定的浏览器这样就实例化一个chrome浏览器对象。 然后请求网页,获取源代码。browser.get('htt...原创 2018-08-14 00:33:39 · 332 阅读 · 0 评论 -
我要爬爬虫(9)-Ajax数据爬取
很多网页的源代码和其实际的展示效果不一样,是因为有两段请求,除了我们向服务器发送的请求,还有该页面发送的ajax请求,是它把简单的原网页渲染成展示出来的效果。我们的目的就是实例化这个请求。 ajax请求的类型为xhr。 referer:ajax 请求的发送者 X-Request-With:XMLHttpRequest 这个属性标记该请求为ajax请求。import requestsfr...原创 2018-08-13 20:47:34 · 405 阅读 · 0 评论 -
我要爬爬虫(8)-beautiful soup解析库
bs不基于正则,而是基于网页的结构和属性。html = """<html><head><title>The Dormouse's story</title><原创 2018-07-13 01:20:56 · 230 阅读 · 0 评论 -
我要爬爬虫(7)-xpath解析库
<div> <ul> <li class ="item-0"><a href="link1.html">first time</a> </li>原创 2018-07-12 00:10:24 · 291 阅读 · 0 评论 -
我要爬爬虫(6)-爬取猫眼Top100电影
直接上代码原创 2018-06-13 23:41:30 · 301 阅读 · 0 评论 -
我要爬爬虫(4)-初识requests模块
与urllib模块不同,requests模块发送请求可以用明确定义的函数实现,如: requests.get() requests.post() 不需要urlopen()和handler(),更加方便发送请求。import requests,jsondata={ 'name':'Tom', 'age':1}re=requests.get('http://httpbi...原创 2018-05-31 22:58:38 · 713 阅读 · 0 评论 -
我要爬爬虫(5)-正则表达式
正则之前就学过,也用过,这里再过一遍吧~ python中主要使用re模块操作正则。 正则表达式测试工具http://tool.oschina.net/regex/,直接把文本转成正则。常用规则\w 字母,数字,下划线\W 非\w\s 空\S 非空\d 数字\D 非数字\n 换行^ 字符串开头. 任意非换行字符* 匹配0个或多个表达式+ 匹配一个或多个表达式? 非贪...原创 2018-06-07 01:39:23 · 185 阅读 · 0 评论 -
我要爬爬虫(2)-实例化处理器,代理及cookie
实例化处理器 当我们请求一个带有弹出窗口验证的网页,例如http://httpbin.org/basic-auth/user/passwd HTTPPasswordMgrWithDefaultRealm函数可以加入用户名和密码信息。 使用HTTPBasicAuthHandler函数实例化处理器。 使用build_opener函数可以实例化一个opener,是上节学习的urlopen...原创 2018-05-15 06:05:02 · 453 阅读 · 1 评论 -
我爬爬爬虫(1)-初识urllib模块
urllib库的使用request.urlopen()函数urlopen(url)可以发送请求,也可以加上data,timeout等参数。response=request.urlopen(url)timeout参数设置timeout参数,如果响应时间超过timeout,则抛出异常。response=request.urlopen(request,timeou...原创 2018-05-14 23:35:04 · 146 阅读 · 0 评论 -
我要爬爬虫(14)Android下charles抓包
移动端数据的爬取也可以分为两种,一种是类似于requestf原创 2019-01-10 16:16:59 · 608 阅读 · 0 评论