爬虫
文章平均质量分 87
lmw-xiaoxin
这个作者很懒,什么都没留下…
展开
-
windows安装scrapy模块(基于twisted开发)
#Windows平台 1、pip3 install wheel #安装后,便支持通过wheel文件安装软件,wheel文件官网:https://www.lfd.uci.edu/~gohlke/pythonlibs 3、pip3 install lxml 4、pip3 install pyopenssl 5、下载并安装pywin32:https://sourcefor原创 2018-01-23 10:12:56 · 334 阅读 · 0 评论 -
爬虫基本原理
一.爬虫的基本流程#1、发起请求使用http库向目标站点发起请求,即发送一个RequestRequest包含:请求头、请求体等#2、获取响应内容如果服务器能正常响应,则会得到一个ResponseResponse包含:html,json,图片,视频等#3、解析内容解析html数据:正则表达式,第三方解析库如Beautifulsoup,pyquery等解析json数据:js原创 2018-01-23 20:20:57 · 293 阅读 · 0 评论 -
爬虫-基于GET请求
一.基本请求import requestsresponse=requests.get('http://dig.chouti.com/')print(response.text)二.带参数的GET请求-->params#在请求头内将自己伪装成浏览器,否则百度不会正常返回页面内容import requestsresponse=requests.get('https://www.baid原创 2018-01-23 20:28:35 · 513 阅读 · 0 评论 -
爬虫项目:破解极验滑动验证码
一 介绍 一些网站会在正常的账号密码认证之外加一些验证码,以此来明确地区分人/机行为,从一定程度上达到反爬的效果,对于简单的校验码Tesserocr就可以搞定,如下 但一些网站加入了滑动验证码,最典型的要属于极验滑动认证了,极验官网:http://www.geetest.com/,下图是极验的登录界面 现在极验验证码已经更新到了 3.0 版本,截至 2017 年 7 月全球已有十原创 2018-01-18 18:07:03 · 26075 阅读 · 10 评论