爬虫
9号信箱
这个作者很懒,什么都没留下…
展开
-
【Python爬虫练习】python爬取安居客二级网页二手房信息(selenium)
在每次进行爬虫代码的编写之前,我们的第一步也是最重要的一步就是分析我们的网页。在我们本次的例子中,我们需要在每一页获取每一个具体房源的链接,然后进入到二级网页获取详细的信息,然后再返回上一级网页重复此过程。通过分析我们发现在爬取过程中速度比较慢,所以我们还可以通过禁用谷歌浏览器图片、JavaScript等方式提升爬虫爬取速度。爬取的网站首页地址:https://beijing.anju...原创 2019-06-12 17:37:51 · 3787 阅读 · 2 评论 -
python正则表达式爬取博客标题
import requestsimport reheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'}for i in range(1,8): link='...原创 2019-06-06 19:50:36 · 1427 阅读 · 0 评论 -
【Python爬虫练习】虎扑社区步行街版块首页信息爬取(BeautifulSoup+MongoDB)
严正声明:爬虫仅用于学习研究,不做商业或者其它非法用途!首先我们要爬取的网页地址为:https://bbs.hupu.com/bxj页面的样子是这样的:红色圈出来的部分就是我们所要爬取的内容信息。接下来最重要的自然是页面元素的分析,这个就不多说了,这是爬虫代码编写的前提,也是最最基本、最最重要的部分。简单的来说就是 右键想要爬取的内容,选择“检查”。需要大家了解一点h...原创 2019-06-20 16:56:18 · 785 阅读 · 0 评论 -
【Python爬虫练习】虎扑社区步行街版块首页信息爬取多线程版本
#_*_ coding=UTF-8 _*_import requestsfrom bs4 import BeautifulSoupimport queue as Queueimport threadingheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHT...原创 2019-06-22 11:46:43 · 565 阅读 · 0 评论