python3爬虫
凉拌豌豆尖
这个作者很懒,什么都没留下…
展开
-
python3爬虫攻略(1):urllib.request使用(1)
使用urlopren()分分钟拔下一个网页例子# -*- coding:utf-8 -*-#导入requestfrom urllib import request#打开网页response=request.urlopen("http://www.umei.cc/meinvtupian/xingganmeinv/")html=response.read().deconde("utf-8原创 2017-10-27 11:04:49 · 910 阅读 · 0 评论 -
python爬虫攻略:selenium+phantomjs初探
一:前言requests虽然功能强大,但遇上JavaScript动态渲染过的html页面还是有一定的局限,这是后如果你机器强大,而且爬取数据量不是太大的话,你或许可以考虑一下selenium+phantomjs来针对那些需要登录,并且是JavaScript动态渲染的网页。seleniumSelenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用...原创 2018-02-20 17:19:38 · 539 阅读 · 0 评论 -
python3 scrapy startproject报错解决
在ubuntu使用scrapy 新建项目是报错 简单的看了一下,只能了解大致意思,PermissionError:许可错误。Permission denied:没有权限。 不过凑到一起还是一脸懵逼(希望那位大神能够解救!)系统环境ubuntu16.04,python版本3.5.2 scrpay shell能够正常使用 在网上找了许久,没有找到解决办法。第一种解决办法于是自己探索,探索原创 2017-11-25 22:42:26 · 3404 阅读 · 0 评论 -
python3爬虫攻略(9):requests的使用
Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用。 Requests继承了urllib的所有特性。 Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动确定响应内容的编码,支持国际化的 URL 和 POST 数据自动编码。 相对于urlilib的request来说Requests可以说是异常的强大。(话说回来,相原创 2017-10-30 11:10:26 · 1771 阅读 · 0 评论 -
python3爬虫(8):异常处理以及代理的使用
当我们使用urlopen发出一个请求的时候,如果urlopen不能处理这个response,就会产生错误。 一次我们这里就要讲到URLError和HTTPError,以及对他们的处理。URLError 产生的原因主要有: 1:没有网络连接 2:服务器连接失败 3:找不到指定的服务器# -*- coding:utf-8 -*-from urllib import requesttry:原创 2017-10-29 15:45:08 · 2976 阅读 · 0 评论 -
python3爬虫攻略(7):爬虫案例
上一篇学了xpath,那么我们趁热打铁,用xpath和python来写一个简单的小爬虫,爬取豆瓣电影top250的电影名字和评分,并将其写入到本地txt文件中。好了进入正题。 通过对网页进行分析,我们可以看出所有的电影都在一个li标签中,这意味着我们可以利用同样的xpath规则找到它们 然后我们在分析每一个电影的具体情况 通过分析我们可以轻松的用xpath找到我们想要的信息原创 2017-10-28 23:01:18 · 1244 阅读 · 1 评论 -
python爬虫攻略(6):lxml与xpath
就小弟看来,爬虫就是将网页上自己想要的东西扒下来,如果想要精准的找到自己想要的东西,就要学习正则表达式,xpath,BeautifualSoup,这些东西了。 这里给各位老铁安利一下xpath,因为它简单,而且还是万金油,在scrapy中也能够使用。 使用xpath首先要安装lxml库,pip install lxml一句话就搞定了。 XPath (XML Path Language) 是一门原创 2017-10-28 18:04:13 · 1711 阅读 · 0 评论 -
python3爬虫攻略(5):翻译程序打包及代码优化
上一篇我们写了一个简单的翻译程序,但是大家有没有发现一个bug? 如果一不小心按了回车键会发生什么情况? 如果输入的字符为空的话,下面的if判断程序当然无法执行咯! 解决方法:while len(query)==0: query=input("请输入想要翻译的句子或单词:")运行效果: 然后问题又来了,每次翻译过后程序就会自动退出,那么我们该怎么做到我想一直使用就使用,我不想原创 2017-10-28 10:55:27 · 445 阅读 · 0 评论 -
python3爬虫攻略(4):简单的翻译程序
通过上面学习的只是,我决定利用百度翻译的接口,写一个简单的翻译小程序。 上一次我们学习了提交表单的案例,那么我们就趁热打铁,写一个简单的翻译程序。 这里我们要引入json和jsonpath 因为百度翻译获取的结果是一个json对象 如图所示 我们要做到的就是把翻译结果从json对象中提取出来,这就需要jsonpath了! 首先安装jsonpath:下载地址:https://pypi.原创 2017-10-27 21:38:42 · 1360 阅读 · 0 评论 -
python3爬虫攻略(3):利用Fidder抓包!
上一篇我们使用了POST,其中涉及到表单数据的提交,那么表单数据的格式从哪里来呢?当然是使用Fiddle抓包咯!Fiddler安装包和switchyomega插件(如果失效的话只能自己去找咯!)链接:http://pan.baidu.com/s/1eSCNWky 密码:dtc4Fiddler用来抓取浏览器的http请求,而switchyomega则用来管理代理设置。首先安装Fi原创 2017-10-27 16:19:54 · 5717 阅读 · 0 评论 -
python3爬虫攻略(2):urllib.request(2)
上一次我们讲了urllib.request模块的最简单用法,接下来我们要学习它另外的几个方法,使用Request和提交POST数据。一:使用Requesturllib.request.Request(url, data=None, headers={}, method=None)使用request()来包装请求,再通过urlopen()获取页面。# -*-原创 2017-10-27 15:52:31 · 535 阅读 · 0 评论 -
python3爬虫攻略:selenium+phantomjs二进宫
一:前言上一篇文章讲了下selenium+phantomjs进行简单模拟网站登录,这一篇我们就在深入一下,讲一下selenium其他相关的东西。(selenium很强大,而在下也只是个菜鸡,所以有不足的还请各位老铁指正,咱们共同进步。) Selenium是一个Web的自动化测试工具,所以它存在的意义当然不知识为了模拟登陆,我们日常生活中在网页上的行为,基本上都能用selenium实现。鼠...原创 2018-02-20 17:50:25 · 451 阅读 · 0 评论