网络爬虫
菜鸡小豆子
这个作者很懒,什么都没留下…
展开
-
网络爬虫之scrapy的基本实现
前言该来的还是要来的,作为网络爬虫,通用的requests库、beautifulsoup库还有常用的selenium库是非常优秀的,他们可以帮助我们解决绝大部分问题的。对于我们个人使用而言,学会这些,基本是够用了。但是哦,使用框架的爬虫可以帮助我们更高效的解决问题,所以…我们今天来看下scrapy的基础使用…准备工作安装scrapy库pip install scrapy -i https...原创 2020-05-04 18:56:37 · 364 阅读 · 0 评论 -
网络爬虫之豆瓣评论、原文摘要抓取
相信很多观众老爷们喜欢耍豆瓣啥的,看看书,喝喝茶的(ps:拉倒吧),哈哈哈,经过10800秒的研究,我分析了豆瓣图书的结构,发现在不登录的情况下,短评论只能爬取220条的数据,但是!!!注意!!!!长评论是没有限制的啊,那还不用力抓???原文摘录和读书笔记都是没有限制额,还不抓???安排...原创 2020-04-29 14:41:06 · 2092 阅读 · 6 评论 -
网络爬虫之代理池
爬虫代理池小小爬虫代理池该代理池中的IP是通过爬虫在网络收集的免费代理;代理池中的IP都是爬取当天最最最新鲜的IP,但是任然可能存在网络超时的情况,在使用时为避免这种情况,可以只用timeout来进行处理;注意该代理池中抓取的数据存放在MongoDB数据库中,若没有安装该数据库,可以安装一下,同时安装一下pymongo使用前,请先将源码下载后并放在你所使用的爬虫目录下,导入即可,源...原创 2020-04-24 08:14:10 · 303 阅读 · 0 评论 -
网络爬虫之xpath提取文本时的乱码
问题如下大红框标注部分解决方案在请求获取后,加入转换即可解决r.encoding="utf-8"原创 2020-04-15 18:41:52 · 4278 阅读 · 0 评论 -
网络爬虫实战之从妹子图开始
网络爬虫的盛行,反扒机制主要有三类:验证headers验证用户行为加载Ajax请求本次爬取的对象使用了前两种反扒机制,后面我会讲如何绕开,并获取到数据。本次使用的requests库和lxml库需要手动安装一下:pip install requestspip install lxml好了,废话不多说,我们开始吧,先上源码import randomimport reimpor...原创 2020-04-14 13:22:31 · 1516 阅读 · 3 评论 -
网络爬虫之selenuim的基本使用(1)
导入from selenium import webdriver使用find_element(By.ID,‘xxx’)时需要导入包from selenium.webdriver.common.by import By创建实列(例如chrome浏览器)web = webdriver.Chrome()请求站点web.get('http://www.baidu.com')定位元素web...原创 2020-04-10 09:46:32 · 289 阅读 · 0 评论