爬虫
GH_learn_IT
这个作者很懒,什么都没留下…
展开
-
全网最通俗之一的讲解爬虫基本与核心知识整理汇总干货!(新手上路)
@爬虫学习先爬(抓上你想要的页面)四大核心:抓文本、捕捉异常、IP代理、响应头urllib库#python系统自带的urllib库,上手抓文本import urllib.requestre = urllib.request.urlopen("http://www.baidu.com")print(re.read().decode("utf-8"))#捕捉异常,有备无患from urllib import request, errortry: response = request原创 2020-12-31 18:22:39 · 515 阅读 · 2 评论 -
为什么不推荐Selenium写爬虫(转载)
首发于萌新的学习日记写文章为什么不推荐Selenium写爬虫我要去头条为头条刷题182 人赞同了该文章原文原文:为什么不推荐Selenium写爬虫最近在群里经常会看到有些朋友说,使用Selenium去采集网站,我看到其实内心是很难受的,哎!为什么要用Selenium呢?我想说下自己的看法,欢迎各位大佬批评。观点如果可以使用Requests完成的,别用Selenium数据采集的顺序接到一个项目或者有一个采集需求时,第一步就是...转载 2020-12-30 17:39:21 · 754 阅读 · 0 评论 -
为什么要用Selenium?终于搞明白了很重要的一点
《解析Python网络爬虫核心技术、Scrapy框架、分布式爬虫》【作者】黑马程序员编著,书中有以下一段话:找个真实的网页,看一看就明白了。比如:https://www.toutiao.com/search/?keyword=风景点击上面的网页,能够看到网址不变,但是下拉的时候,会不断加载页面(也就是实现了翻页的功能)——所以重点来了,要实现 这种网页的爬虫, 你必须知道它是怎么实现翻页的,不然你只能爬取第一页的内容了。那么就要看看它是怎么翻页的?步骤如下:第一步,查看网页.原创 2020-12-30 17:56:51 · 931 阅读 · 0 评论 -
urllib和requests库爬取同一个页面的内容居然不一致?出什么问题了?
一、感谢以下博客的内容参考妖白《requests.get为什么得到的内容和查看源文件不一样?》https://blog.csdn.net/qq_24753293/article/details/78683678?utm_medium=distribute.pc_relevant_bbs_down.none-task--2~all~baidu_landing_v2~default-1.nonecase&depth_1-utm_source=distribute.pc_relevant_bb原创 2020-12-31 10:24:34 · 637 阅读 · 1 评论