python-爬虫攻略

最新推荐文章于 2022-08-08 17:16:31 发布

Rabin_

最新推荐文章于 2022-08-08 17:16:31 发布

阅读量273

点赞数

分类专栏：基础教学 python 爬虫 spider 文章标签： python 爬虫技巧反扒伪装浏览器

本文链接：https://blog.csdn.net/weixin_42023936/article/details/82762563

版权

python 同时被 3 个专栏收录

5 篇文章 0 订阅

订阅专栏

基础教学

3 篇文章 0 订阅

订阅专栏

爬虫

2 篇文章 0 订阅

订阅专栏

爬虫初级入门 ps:还有中级入门，木有终极入门~~~

爬虫简介：

爬虫简介：

看完初级入门再去搞中级入门啊，这是中级入门的链接

emmmmmmmm…爬虫（spider) 就是找个虫子爬呀爬爬呀爬~~~~~
网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常被称为网页追逐者），是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本，已被广泛应用于互联网领域。搜索引擎使用网络爬虫抓取Web网页、文档甚至图片、音频、视频等资源，通过相应的索引技术组织这些信息，提供给搜索用户进行查询。网络爬虫也为中小站点的推广提供了有效的途径。
（摘自搜狗百科）

使用爬虫的心路历程

博主是刚学会Python指导老师就给了一项看似不能完成的任务，emmmm，自行爬取某医学网站的论文摘要然后进行机器翻译，python3urllib来进行url的获取，最基础的爬虫程序：

import urllib.request as req   #有的时候module较长就给他简化咯
url='https://mp.csdn.net/mdeditor/81475146#'
content=req.Request(url)		#进入url获取信息
response=req.urlopen(content)
data=response.read()
print(data)

BUT !!! 现在的网站都有反扒机制（哼，老师说了，网站不让爬就说明程序猿自己写的代码不好意思让人看到，话说我也是程序猿哎。。。）

在爬完网站后我们需要进行有用信息的分析获取，同时还要加点东东来搞一搞反扒机制，一点一点的来：

1） F12看不到网站源代码

有的时候使用上边的Request并不能获取网站信息，这时候你就需要get的登场了：

import request
data = request.get(url)    #python3使用get就不孬
print(data)

2）频繁访问拒绝你的连接

你一次爬人家多个网站，人家还是花钱的网站，一瞅不就知道你派了虫子来搞人家的‘金钱’ 了，搁我我也不乐意啊。
最简单的方法：

impoty time
time.sleep(20) #代码爬取一个结束后等待20秒，再进行程序的运行

time.sleep的使用就是让整个程序sleep多长时间，最简单的方法。
第二简单的方法：

import time
import request
headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ' 'Chorme/51.0.2704.63 Safari/537.36'}
data = request.get(url,headers=headers) 	#get函数中有一个参数，headers可以帮助你伪装成浏览器进行访问 
time.sleep(20)

time.sleep和伪装更配哦
来波互粉咋样，涨涨粉丝也好呀~~~~~~~~~~~~~

Rabin_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python-爬虫攻略

爬虫初级入门 ps:还有中级入门，木有终极入门~~~爬虫简介：使用爬虫的心路历程BUT !!!!!! 现在的网站都有反扒机制（哼，老师说了，网站不让爬就说明程序猿自己写的代码不好意思让人看到，话说我也是程序猿哎。。。）1） F12看不到网站源代码2）频繁访问拒绝你的连接爬虫简介：emmmmmmmm…爬虫（spider) 就是找个虫子爬呀爬爬呀爬~~~~~网络爬虫（又被称为网页蜘蛛，网络机器人...
复制链接

扫一扫