python爬虫基础
1学习者1
不为失败找理由只为成功找方法
展开
-
python+selenium 浏览器无界面模式运行
以Chrome浏览器为例:方法一:from selenium.webdriver import Chrome, ChromeOptionsopt = ChromeOptions() # 创建Chrome参数对象opt.headless = True # 把Chrome设置成可视化无界面模式,windows/Linux 皆可drive...原创 2020-02-12 18:56:09 · 3128 阅读 · 0 评论 -
selenium等待定位标签加载完再执行
遇到的问题描述我们经常会碰到用selenium操作页面上某个元素的时候, 需要等待页面加载完成后, 才能操作。 否则页面上的元素不存在,会抛出异常。 比如:一个动态网页使用了ajax的异步加载,我们需要等待元素加载完成后, 才能操作这个元素(事实上,现在我们遇到的所有想要爬取的网站都或多或少的使用了各种各样的动态技术加载局部元素来提升访问效率)selenium 中提供了非常...原创 2020-02-11 22:12:52 · 5001 阅读 · 1 评论 -
Python爬虫自学之第(⑤)篇——爬取某宝商品信息
能看到这里说明快进入动态网页爬取了,在这之前还有一两个知识点要了解,就如本文要讲的json及其数据提取JSON是什么 json是轻量级的文本数据交换格式,符合json的格式的字符串叫json字符串,其格式就像python中字符串化后的字典,有时字典中还杂着列表字典,但是里面的数据都被双引号包着,下面是一个例子'{"Africa": [{ "name":"蜜獾" , "nick...原创 2020-02-05 22:23:45 · 1123 阅读 · 2 评论 -
Python爬虫自学之第(④)篇——强大的正则表达式,re模块
如果把BeautifulSopu比喻成通过线索一步步接近目标的侦探的话,那么正则表达式就是牛逼哄哄的“天眼系统”,只要提供一些目标的特征,无论搜索范围多大,只要存在那么一两个符合特征的目标,全都会被它直接逮住。特性牛逼王BS的爸爸,我告诉你个秘密,其实BeautifulSoup也是用正则实现的,而且它find_all的参数里还能接收正则呢 信息精确定位,BeautifulSou...原创 2020-02-05 10:35:21 · 353 阅读 · 0 评论 -
Python爬虫自学之第(③)篇——实战:requests+BeautifulSoup实现静态爬取
前篇全片都是生硬的理论使用,今天就放个静态爬取的实例让大家体验一下BeautifulSoup的使用,了解一些背后的原理。顺便在这引入静态网页的概念——静态网页是指一次性加载所有内容的网页,爬虫一次请求便能得到所有信息,对爬虫非常友好,适合练手豆瓣top250电影信息爬取我们来爬取每部电影的图片,名称,导演演员,类型,评分,和它的一句话总结,继续对<li>...原创 2020-02-05 00:11:16 · 801 阅读 · 1 评论 -
Python爬虫自学之第(②)篇——BeautifulSoup解析网页
学了requests,了解了伪装技巧后,终于能爬到些比较正常的网页源码(html文档)了,但这离结果还差最后和是最重要的一步——筛选。这个过程就像在泥沙中淘金一样,没有合适的筛子,你就会把有价值的漏掉了,或者做了无用功把没用的也筛了出来。淘金者看土质,做筛子。对应到爬虫领域就是观察html,定制筛选器。稍稍了解HTML信息都在网页源码里,浏览器通过解析源码来加载我们所看到的东西,那我们是...原创 2020-02-04 23:58:57 · 918 阅读 · 0 评论 -
Python爬虫自学之第(①)篇——爬虫伪装和反“反爬”
有些网站是防爬虫的。其实事实是,凡是有一定规模的网站,大公司的网站,或是盈利性质比较强的网站,都是有高级的防爬措施的。总的来说有两种反爬策略,要么验证身份,把虫子踩死在门口;要么在网站植入各种反爬机制,让爬虫知难而退。本节内容就着这两种反爬策略提出一些对策。身份伪装 就算是一些不知名的小网站,多多少少还会检查一下headers验证一下访者的身份,大网站就更不用说了(我一次爬网易云的...原创 2020-02-20 11:25:36 · 1253 阅读 · 0 评论 -
Python爬虫自学之第(零)篇——爬虫思路和request模块使用
爬虫思路无思路不成器,如果你怎么想都想不出爬虫的原理,不妨来看下我们平时是如何上网的,大概就是这样: 输入或者点开目标网址→[可选:登录/回复]→浏览全页筛选出价值内容→如果很喜欢,还会拷贝下载回来所以爬虫归结起来也就这几步:构造目标网址(重点) 发起请求(request),相当于点开网页。 获取网页内容(坑)。 定制筛选器,对内容进行筛选(重点)。 把爬取结果保存到容器...原创 2020-02-04 18:39:01 · 320 阅读 · 0 评论 -
http详解 请求报文格式和响应报文格式
HTTP 工作原理超文本传输协议(Hypertext Transfer Protocol,简称HTTP)是应用层协议。HTTP 是一种请求/响应式的协议,即一个客户端与服务器建立连接后,向服务器发送一个请求;服务器接到请求后,给予相应的响应信息。HTTP 协议采用请求/响应模型。客户端向服务器发送一个请求报文,服务器以一个状态作为响应。以下是 HTTP 请求/响应的流程:客户...原创 2020-02-04 13:06:06 · 7696 阅读 · 1 评论