爬虫
BBJG_001
手与大脑的距离决定了理想与现实的相似度
展开
-
爬虫:Python下载html保存成pdf——以下载知乎下某个专栏下所有文章为例
原文地址分类目录——万能的Python系列分类目录——爬虫系列首先,需要下载安装支持工具 wkhtmltopdfwkhtmltopdf官网下载地址安装完成后将其下bin目录的绝对路径追加到环境变量中之前import requestsimport reimport osimport jsonimport pdfkitHEADERS={ # 设置requests要...原创 2020-04-05 10:38:02 · 2410 阅读 · 0 评论 -
调用浏览器的爬虫——selenium
原文地址分类目录——爬虫在进行网页爬取时,有些网页比较难分析,应用的很多动态特性;还有可能会在header中封装了很多奇奇怪怪的不知道怎么获取的数据;这时候可能会想如果能用程序吊起浏览器来,自动执行点击,拖动等动作就好了selenium就是这样一个工具包先看一个例子上面所有的操作都是selenium程序控制执行的,当然,执行遇到了问题,卡在了图片验证上,这个之后再说,先看一下上述操...原创 2020-03-26 09:49:13 · 2046 阅读 · 0 评论 -
爬虫:异步(并行)数据爬取
原文地址分类目录——爬虫在进行网页爬取时,网页的响应速度慢于计算机的处理速度,在串行模式下访问多个网页,在通过网络获取一个网页的过程中,在这个过程之前,计算机只能闲置等待。而异步的方式就是让计算机可以在这个闲置时间先去做后面的工作,等这个网页响应完成再对它进行处理。这里说的这种异步的方式是一种分时获得时间片的机制,有些像多线程,不同于多进程,私以为比较适合爬虫这种IO密集型操作。异步编...原创 2020-03-24 08:28:11 · 2601 阅读 · 0 评论 -
爬虫: 多进程分布式数据爬取
原文地址分类目录——爬虫多进程的使用可以参见 分类目录——多进程 ,这里就直接操作不在进行过多的说明这里以 把我的CSDN上的20条博客 访问一遍为例,来比照单纯串行和多进程并行的执行效率首先,获取我所有博客的URL(当然只用20条做测试,我把这个功能封装了一个函数,方便我之后调用)def getAllUrls(url): # url传个人主页,我的是 'https://b...原创 2020-03-24 08:24:26 · 1837 阅读 · 0 评论 -
爬虫:一个简单的数据爬取统计实例
原文地址分类目录——爬虫——自写程序统计自己的CSDN博客访问量我的个人主页首先解析一下我的个人主页要获得全部博客,页码进入个人主页之后显示的我的博客第1页,如果只分析一页的,只需传入这个网址就行了,要分析另外几页呢,要每次自己修改网址么,我不想那么干看一下第2页的网址https://blog.csdn.net/BBJG_001/article/list/2第3页的htt...原创 2020-03-06 09:13:04 · 3363 阅读 · 0 评论 -
爬虫:设置Request Header(请求头)
原文地址分类目录——爬虫Request Header(请求头)是在http协议中封装的内容,在在很多网站中,会对请求头中的信息有所要求,或者是因为用作验证来反爬虫,或者是获得浏览器的信息以提供针对性的反馈等等,当缺少这些请求头信息时,有些网站可能会对请求不予反馈,或者返回错误信息。这就需要在通过代码访问的时候追加这些信息下面以一个例子来说明以 https://dig.chouti.com...原创 2020-03-04 09:45:51 · 9202 阅读 · 0 评论 -
爬虫:一个简单实例说明爬虫机制
原文地址爬虫,我的简单理解就是通过写定的程序,利用计算机的高速的优势,批量高效的获取数据的一种机制。通常我们访问网站是通过浏览器,而爬虫就是通过程序访问网站,也就是让程序伪装成浏览器进行访问。Request伪装浏览器发送请求应用实例import requestsres = requests.get( url='https://blog.csdn.net/BBJG_001'...原创 2020-03-03 09:14:33 · 2325 阅读 · 0 评论