爬虫
alwaysPractice
这个作者很懒,什么都没留下…
展开
-
Requests,BeautifulSoup,自动登录实例
requestsPython标准库中提供了:urllib、urllib2、httplib等模块以供Http请求,但是,它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作,甚至包括各种方法覆盖,来完成最简单的任务。Requests 是使用 Apache2 Licensed 许可证的 基于Python开发的HTTP 库,其在Python内置模块的基础上进行了高度的封...原创 2018-04-04 14:30:03 · 22557 阅读 · 0 评论 -
scrapy下载中间设置
class ProxyMiddleWare(object): """docstring for ProxyMiddleWare""" def process_request(self,request, spider): '''对request对象加上proxy''' proxy = self.get_random_proxy() ...原创 2018-06-01 15:23:46 · 18676 阅读 · 0 评论 -
python的urllib.parse用法
urllib.parse解析url:urllib.parse.urlparse(url, scheme='', allow_fragments=True)简单的使用: urlparsefrom urllib import request, parse2 #解析urlprint(parse.urlparse('https://movie.douban.com/'))print(p...原创 2018-05-08 18:28:53 · 43581 阅读 · 1 评论 -
Selenium和PhantomJS
1,SeleniumSelenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。Selenium 可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。...原创 2018-05-03 11:01:36 · 21738 阅读 · 0 评论 -
scrapy操作系统无法运行1%
出现:ImportError: DLL load failed: 操作系统无法运行1% 可以用pip安装如下包pip install -I cryptography原创 2018-05-09 16:29:02 · 22288 阅读 · 1 评论 -
scrapy配置proxy代理
一、IP池IP可以从这个几个网站获取: 快代理:https://www.kuaidaili.com/free/ 西刺代理:http://www.xicidaili.com/ 如果出现像下面这种提示:”由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败”或者是这种,” 由 于目标计算机积极拒绝,无法连接。”. 那就是IP的问题,更换就行了。。。。发现上面好多IP都不能用。...原创 2018-05-09 10:36:39 · 28903 阅读 · 3 评论 -
解决lxml中没有etree的问题
在使用爬虫是:from lxml import etree时报错,没有etree这个库,这是因为有的lxml包中没有集成etree 解决方法:可以自己再选择安装带etree的lxml,我的Python是3.6,下载的etree是4.2.1 下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下载后执行下图代码不报错说明安装成功 etree使...原创 2018-05-02 15:29:03 · 45939 阅读 · 0 评论 -
Scrapy相关操作
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。 其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy...原创 2018-04-07 13:19:20 · 21942 阅读 · 0 评论 -
selenium的基本用法
一.配置连接1.一般连接from selenium import webdriverbro = webdriver.Firefox(executable_path = 'D:\APPS\dir\geckodrivebro.get('https://cdn-img.comic-days.com/public/page/2/10834108156629381635-b8eabac8eb...原创 2018-04-18 17:08:09 · 21785 阅读 · 0 评论 -
selenium设置谷歌无头浏览器
当然你得先下载谷歌驱动chromedriver.exe,安装seleniumfrom selenium import webdriverfrom selenium.webdriver.chrome.options import Optionschrome_options = Options()chrome_options.add_argument('--headless')driv...原创 2018-06-01 16:56:04 · 34761 阅读 · 0 评论