网络
文章平均质量分 53
始祖鸟
Just do it!
展开
-
webdriver中的等待问题
对照《用python写网络爬虫》的第五章的selinium渲染网页例子练习时,碰到一个问题driver.implicitly_wait(30)links = driver.find_elements_by_css_selector('#results a')countries = [link.text for link in links]driver.close()print co原创 2017-03-20 18:54:20 · 1181 阅读 · 0 评论 -
搜索引擎蜘蛛及网站robots.txt文件详解
原文链接:http://www.cnblogs.com/study121007/p/4612263.html我们知道,搜索引擎都有自己的“搜索机器人”(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库。对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开。为了解决这个问题,转载 2017-03-07 15:08:18 · 602 阅读 · 0 评论 -
HTTP认证方式
原文转自http://www.cnblogs.com/xiekeli/p/5607107.html几种常用的认证机制HTTP Basic AuthHTTP Basic Auth简单点说明就是每次请求API时都提供用户的username和password,简言之,Basic Auth是配合RESTful API 使用的最简单的认证方式,只需提供用户名密码即可,但由于有把用户名密码转载 2017-03-29 20:14:55 · 3111 阅读 · 0 评论 -
Cookie 和session浅了解
Refer http://www.jb51.net/article/40772.htm http://www.cnblogs.com/shiyangxt/archive/2008/10/07/1305506.html http://blog.csdn.net/fangaoxin/article/details/6952954/原创 2017-03-23 10:24:23 · 240 阅读 · 0 评论 -
No JSON object could be decode 问题解决
爬取淘宝MM的图片时,发现切换页面,URL都不改变。最后了解到网页是AJAX技术实现的。百度下,AJAX全称Asynchronous JavaScript and XML ,是指异步JavaScript和XML,跨浏览器动态生成Web应用内容的功能。简单点说,就是在不切换页面的情况下,和服务器端进行数据的交换。如此模拟打开AJAX网页,服务将会返回json格式的数据给你,采用json模块中原创 2017-03-15 16:44:32 · 27957 阅读 · 0 评论