python爬虫
文章平均质量分 88
batype
付出多少,回报就有多少,永远它们是成正比的。
展开
-
selenium抓取Airbnb深圳短租数据
1、网站分析 首先我们需要打开Airbnb深圳前200短租房源的网页(https://zh.airbnb.com/s/Shenzhen-China/homes?refinement_paths%5B%5D=%2Fhomes&allow_override%5B%5D=&s_tag=GAE-MLbZ),然后点击邮件打开“检查”,如下图所示:我们最开始需要做的就是查找出我们需要抓取...原创 2018-03-29 23:02:50 · 3540 阅读 · 0 评论 -
pyquery的基本使用
如果你对Web有所涉及,如果你比较喜欢用CSS选择器,如果你对jQuery有所了解,那么这里有一个更适合你的解析库——pyquery。接下来,我们就来感受一下pyquery的强大之处。 1、 准备工作 在开始之前,请确保已经正确安装好了pyquery。若没有安装,可以通过pip安装。pip install pyquery2、 初始化 初始化pyquery的时候,也需要传入HT...转载 2018-06-06 17:11:01 · 576 阅读 · 0 评论 -
深度优先遍历爬取Wikipedia深度为3的所有URL
——在Wikipedia中,呢我们首先是要分析这些链接存在的方式,然后爬取方法。在Wikipedia这个网站的首页呢我们可以看到这个网站的首页就有220k个超链接,而每个超链接里面也会有好多相应的链接。而深度优先遍历呢就是说,深度如果为2先首先去找出深度为 1的第一个超链接,然后去访问这个超链接,去爬取这个超链接上面相应的URL,直到这个网页上面的所有链接都被 爬取完成之后在返回深度为一的界面去找...原创 2018-05-03 23:35:07 · 1320 阅读 · 1 评论 -
redis.exceptions.ResponseError: WRONGTYPE Operation against a key holding the wrong kind of value
在写爬虫的时候碰见这样一个跟D疼的事情,头皮发麻,终于解决了 r.lpush('img_url',img_url)这是往数据可里面写入的语句,错误的原因是应为你本身数据库里面有何这个img_url一样的key,解决方法就是把你原来的那个数据库里面的表删了或者改成数据类型一致。就可以处理这个错误。...原创 2018-05-01 23:14:57 · 3165 阅读 · 0 评论 -
python爬虫之虎扑步行街主题帖
前言python爬虫的盛行让数据变得不在是哪么的难以获取。现在呢,我们可以根据我们的需求去寻找我们需要的数据,我们下来就利用python来写一个虎扑步行街主题帖的基本信息,主要包括:帖子主题(title)、帖子链接(post_link)、作者(author)、作者链接(author_link)、创作时间(start_date)、回复数(reply)、浏览数(view)、最后回复用户(last...原创 2018-04-11 16:10:26 · 891 阅读 · 0 评论 -
python之多进程和多协成爬虫
——在学完多线程爬虫之后,我们多多少少了解了一些关于提升爬虫速度的方法。接下来我们学习的另外一种方法多进程爬虫。之前我学习的多线程方法来说是基于GIL虽然说速度有了明显的提升,但是对CPU的资源利用没有充分;然而,多进程是利用CPU核数进行的进行的操作,这需要用python中的muiltprocessing这个库。1、使用mulitProcessing的多进程爬虫 ++++一般情况下,我们写...原创 2018-04-16 17:18:57 · 752 阅读 · 0 评论 -
python之单线程和多线程访问网站
——众所周知,在python爬虫中我们经常因为爬虫的速度慢而烦恼。于是就在学习中学习了一下多线程访问网站。在了解多线程的时候我们需要先了解单线程问题。我对单线程做一简单的分析。1、单线程问题 ——单线程就是我们最原始的方法,直接写出访问网站的脚本不需要任何多线程处理例如我们要访问300个网站,网站下载链接点击这里进入下载,我们现在应该已经下载到了我们所需要的300个URL文件。 下...原创 2018-04-16 16:20:14 · 1914 阅读 · 0 评论 -
python之selenium模拟网站登陆
深夜更新一下今天所学到的一个很简单的爬虫,什么也不说先看一段代码:from selenium import webdriverfrom selenium.webdriver.firefox.firefox_binary import FirefoxBinarydriver = webdriver.Chrome()driver.get("https://passport.csdn.net/ac...原创 2018-03-27 23:53:30 · 319 阅读 · 0 评论 -
python中webdriver问题
首先我们来看一段代码:caps = webdriver.DesiredCapabilities().FIREFOXcaps['marionette']=Falsebinary = FirefoxBinary(r'F:\Program Files (x86)\Mozilla Firefox\firefox.exe')driver = webdriver.Firefox(firefox_bina...原创 2018-03-26 11:29:16 · 1141 阅读 · 0 评论 -
Beautiful Soup 基本使用方法
我们就来介绍一个强大的解析工具Beautiful Soup,它借助网页的结构和属性等特性来解析网页。有了它,我们不用再去写一些复杂的正则表达式,只需要简单的几条语句,就可以完成网页中某个元素的提取。 1、简介 简单来说,Beautiful Soup就是Python的一个HTML或XML的解析库,可以用它来方便地从网页中提取数据。官方解释如下:Beautiful Soup提供一些简单的、Py...原创 2018-06-06 17:45:14 · 67238 阅读 · 11 评论