python-爬虫攻略

3 篇文章 0 订阅
2 篇文章 0 订阅

爬虫简介:

看完初级入门再去搞中级入门啊,这是中级入门的链接

emmmmmmmm…爬虫(spider) 就是找个虫子爬呀爬爬呀爬~~~~~
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常被称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本,已被广泛应用于互联网领域。搜索引擎使用网络爬虫抓取Web网页、文档甚至图片、音频、视频等资源,通过相应的索引技术组织这些信息,提供给搜索用户进行查询。网络爬虫也为中小站点的推广提供了有效的途径。
(摘自搜狗百科)

使用爬虫的心路历程

博主是刚学会Python指导老师就给了一项看似不能完成的任务,emmmm,自行爬取某医学网站的论文摘要然后进行机器翻译,python3urllib来进行url的获取,最基础的爬虫程序:

import urllib.request as req   #有的时候module较长就给他简化咯
url='https://mp.csdn.net/mdeditor/81475146#'
content=req.Request(url)		#进入url获取信息
response=req.urlopen(content)
data=response.read()
print(data)

BUT !!! 现在的网站都有反扒机制(哼,老师说了,网站不让爬就说明程序猿自己写的代码不好意思让人看到,话说我也是程序猿哎。。。)

在爬完网站后我们需要进行有用信息的分析获取,同时还要加点东东来搞一搞反扒机制,一点一点的来:

1) F12看不到网站源代码

有的时候使用上边的Request并不能获取网站信息,这时候你就需要get的登场了:

import request
data = request.get(url)    #python3使用get就不孬
print(data)

2)频繁访问拒绝你的连接

你一次爬人家多个网站,人家还是花钱的网站,一瞅不就知道你派了虫子来搞人家的‘金钱’ 了,搁我我也不乐意啊。
最简单的方法:

impoty time
time.sleep(20) #代码爬取一个结束后等待20秒,再进行程序的运行

time.sleep的使用就是让整个程序sleep多长时间,最简单的方法。
第二简单的方法:

import time
import request
headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ' 'Chorme/51.0.2704.63 Safari/537.36'}
data = request.get(url,headers=headers) 	#get函数中有一个参数,headers可以帮助你伪装成浏览器进行访问 
time.sleep(20)

time.sleep和伪装更配哦
来波互粉咋样,涨涨粉丝也好呀~~~~~~~~~~~~~

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值