爬虫
空山老师
空山新雨后,天气晚来秋。
展开
-
用Python 爬虫实现增加博客访问量的方法(含源码)
前言:这篇文章主要介绍了Python 爬虫实现增加博客访问量的方法实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧!!!一、序言:最近项目做完了,闲着没事儿。。。随手写了个博客访问量爬虫玩玩,访问量过万不是事儿!!!每个步骤注释都很清晰,代码仅供学习参考!---- Nick.Peng二、所需环境:Py...原创 2019-11-01 15:58:04 · 545 阅读 · 1 评论 -
# 面向对象编程(OOP)爬虫,爬取LOL的英雄皮肤
如果你是一名撸友,那么你对LOL英雄皮肤应该是相当的喜欢的,毕竟有些皮肤用起来会让我们的手感得心应手的。我们先来看看僧哥的新皮肤首先先对<https://lol.qq.com/>分析一波1.既然要拿取到英雄的皮肤,得先找英雄的资料库吧2.点击资料库,查看英雄的详情,再右键点检查(随便点一个英雄)点击箭头,移动到阿狸小姐姐的位置就可以看图片的网址啦,这一步是我们要...原创 2019-08-24 16:14:47 · 141 阅读 · 0 评论 -
Python爬取妹子,哇!太多了,看不过来了,我一个G的硬盘要满了
淘女郎爬虫,可动态抓取淘女郎的信息和照片。需要额外安装的第三方库requestspip install requestspymongopip install pymongo模块功能TaoLady.py: 负责发送POST请求和抓取个人信息和图片地址并保存到MongoDB中。Download_Pic.py: 负责从MongoDB中抽取出淘女郎照片的网址,并下载。原...原创 2019-06-21 14:16:27 · 2160 阅读 · 3 评论 -
Selenium笔记(7)常见的坑
Selenium笔记(7)常见的坑###1.用Xpath查找数据时无法直接获取节点属性通常在我们使用xpath时,可以使用@class的方式直接获取节点的属性,如下所示:page.xpath('//div/a/@class')但在Selenium中不支持这种用法,只能在找到节点后,使用get_attribute(name)方法来获取属性:page.xpath('//div/a').ge...原创 2019-05-22 14:13:24 · 802 阅读 · 4 评论 -
Selenium笔记(6)等待
Selenium笔记(6)等待1.简介在selenium操作浏览器的过程中,每一次请求url,selenium都会等待页面加载完毕以后,才会将操作权限再次交给我们的程序。但是,由于ajax和各种JS代码的异步加载问题,所以我们在使用selenium的时候常常会遇到操作的元素还没有加载出来,就会引发报错。为了解决这个问题,Selenium提供了几种等待的方法,让我们可以等待元素加载完毕后,再进...原创 2019-05-22 14:13:03 · 1201 阅读 · 2 评论 -
Selenium笔记(5)动作链
Selenium笔记(5)动作链简介一般来说我们与页面的交互可以使用Webelement的方法来进行点击等操作。但是,有时候我们需要一些更复杂的动作,类似于拖动,双击,长按等等。这时候就需要用到我们的Action Chains(动作链)了。–2. 例子 from selenium.webdriver import ActionChains element = driver.fin...原创 2019-05-22 14:12:39 · 347 阅读 · 0 评论 -
Selenium笔记(4)Webelement
Selenium笔记(4)Webelement这是通过find方法找到的页面元素对象,此对象提供了多种方法,让我们可以与页面元素进行交互,例如点击、清空。1.方法clear()清空如果当前元素中有文本,则清空文本click()单击点击当前元素get_attribute(name)获取属性获取元素的attribute/property优先返回完全匹配属性名的值,如果不存在,则返回属...原创 2019-05-22 14:12:17 · 365 阅读 · 0 评论 -
Selenium笔记(3)Remote Webdriver
Selenium笔记(3)Remote Webdriver1.简介selenium.webdriver.remote.webdriver.WebDriver这个类其实是所有其他Webdriver的父类,例如Chrome Webdriver,Firefox Webdriver都是继承自这个类。这个类中实现了每个Webdriver间相通的方法。2.常用方法与属性get(url)在当前浏览器会...原创 2019-05-22 14:11:51 · 7522 阅读 · 0 评论 -
Selenium笔记(2)Chrome启动选项
在Selenium中使用不同的Webdriver可能会有不一样的方法,有些相同的操作会得到不一样的结果,本文主要介绍的是Chrome()的使用方法。其他Webdriver可以查阅官方文档。Chrome Options这是一个Chrome的参数对象,在此对象中使用add_argument()方法可以添加启动参数,添加完毕后可以在初始化Webdriver对象时将此Options对象传入,则可...原创 2019-05-22 14:09:56 · 666 阅读 · 0 评论 -
Selenium笔记(1)安装和简单使用
1.简介Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Firefox,Safari,Chrome,Opera等。这个工具的主要功能包括:测试与浏览器的兼容性——测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之上。测试系统功能——创建回归测试检验软件功能和...原创 2019-05-22 14:06:16 · 165 阅读 · 1 评论 -
大神带你破解豆瓣电影网站登陆机制!-- Scrapy爬虫模拟登陆豆瓣!
第一步抓包打开Fiddler监听浏览器端口开始抓包找到登陆API登陆请求表单提交3.13.2登陆时遇到验证码formdata表单数据会多两条"captcha-solution":验证码数据"captcha-id":验证码ID登陆成功,提取个人信息Scrapy代码1. spider.py文件# -*- coding: utf-8 -*-im...原创 2019-05-16 23:18:12 · 1664 阅读 · 0 评论 -
Python-Scrapy抓取中国空气质量全站数据-ChinaArea案例
本节知识点主要是Scrapy对接selenium目标抓取每个城市空气质量指数日历史数据分析网页数据结构1.1. 一级域名页面1.2. 爬虫起始页面1.3. 从上图随便点个城市链接进去,找到月份链接1.4. 这是我们需要抓取的数据字段 加上城市的字段一共有十个了.分析网页数据格式2.1. 第一个页面为静态2.2. 第二个页面为动态页面2.3. 第三个页...原创 2019-05-16 23:14:21 · 1312 阅读 · 0 评论 -
【Xpath】简单高效的HTML数据提取
1.简介XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。相比于BeautifulSoup,Xpath在提取数据时会更加的方便。2. 安装在Python中很多库都有提供Xpath的功能,但是最基本的还是lxml这个库,效率最高。在之前BeautifulSoup章节中我们也介绍到了lxml是如何安装的。pip install lx...原创 2019-05-21 16:24:14 · 544 阅读 · 0 评论 -
Python网络请求urllib和urllib3详解
1. 简介urllib是Python中请求url连接的官方标准库,在Python2中主要为urllib和urllib2,在Python3中整合成了urllib。而urllib3则是增加了连接池等功能,两者互相都有补充的部分。2. urlliburllib作为Python的标准库,基本上涵盖了基础的网络请求功能。2.1. urllib.requesturllib中,request这个模块...原创 2019-05-21 15:53:28 · 488 阅读 · 0 评论 -
常见加密方式和Python实现
1. 前言我们所说的加密方式,都是对二进制编码的格式进行加密的,对应到Python中,则是我们的Bytes。所以当我们在Python中进行加密操作的时候,要确保我们操作的是Bytes,否则就会报错。将字符串和Bytes互相转换可以使用encode()和decode()方法。如下所示:# 方法中不传参数则是以默认的utf-8编码进行转换In [1]: '南北'.encode()Out[1...原创 2019-05-21 15:43:36 · 261 阅读 · 0 评论 -
Golang爬虫全攻略
一、简介Golang诞生已经超过十个年头了,发展得愈发完善,其简单方便的协程并发机制使得其在爬虫领域有着一定的天赋。首先我们来看一看,Golang相对于Python这个爬虫领域的传统强者,有哪些优点和缺点。优点:完善简便的协程并发机制并发数量大占用资源少运行速度更快部署方便缺点:数据处理比较繁琐成熟工具不是很多资料较少实现相同逻辑需要的代码更多由于Golang本...原创 2019-05-21 15:35:35 · 980 阅读 · 0 评论 -
分分钟几万上下!用Python爬取包图网视频(附代码)切勿商用!
抓取包图网视频目标抓取全站视频数据保存在本地,并以网站视频名命名视频文件。分析网页数据结构经分析我们可以发现总站数据我们可以从这四这选项下手分析网页数据格式网页数据为静态抓取下一页链接OK, 上代码!import requestsfrom lxml import etreeimport threadingclass Spider(object):...原创 2019-05-15 22:06:27 · 2969 阅读 · 2 评论