浅谈爬虫《一》 ===python

最新推荐文章于 2024-05-23 13:08:14 发布

weixin_30653023

最新推荐文章于 2024-05-23 13:08:14 发布

阅读量41

点赞数

文章标签：爬虫 python 前端 ViewUI

原文链接：http://www.cnblogs.com/LoongitArt/p/9398466.html

版权

浅谈爬虫《一》 ===python

‘’正文之前先啰嗦一下，准确来说，在下还只是一个刚入门IT世界的菜鸟，工作近两年了，之前做前端的时候就想写博客来着，现在都转做python了，如果还不开始写点什么，估计时间都不会原谅这么懒散的我了……

闲话到此，下面说正事儿——首先来个爬虫简介

咋一听挺神秘的样子，简单来讲爬虫就是从网络获取资源，比如你想知道淘宝上的女装什么颜色的销量好，或者哪一款零食比较有赚头儿…… 在说现在流行的人工智能，其实所谓的人工智能也就是足够的数据支撑，以及数据标记等等，使机器可以对足够多的场景作出反应……以上纯属个人观点，如有不对请指正

这次是真的讲正题了，爬虫分类，爬虫原理，以及python代码简单实现

比较同用的说法：爬虫分两类

总的来说都是网络爬虫！

我们这里主要谈论的是聚焦爬虫：

爬虫简单来讲分三步：

发起请求
得到反馈
处理数据

由于python2已经快要停止更新了(大概2020年停止)，所以我们这里直接谈论python3的方法

# 导入需要的工具包
from urllib.request import Request,urlopen
# 发起请求（以请求百度为例） request = Request('http://www.baidu.com') # 得到反馈 response = urlopen(request) # 获取数据流 data = response.read() # 数据打印并且转码为 UTF-8 print(data.decode("utf-8"))

打印结果(简略)

<!DOCTYPE html>
<!--STATUS OK-->
<html>
<head> ………… <title>百度一下，你就知道</title> …………

俗话说越是简单的越南学习，在爬虫这里就体现出来了，上面的代码看起来简单，理解起来也没难度，但是不实用，只要网站稍做防范(反爬虫)，就只能傻傻发呆了……，如果您打算从事爬虫工作那么发爬虫将是您工作生涯的中心！

下面介绍一个简单的反爬虫的例子：

from urllib.request import Request,urlopen
# 请求头信息，伪装成浏览器访问
ua_header = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"} request = Request("http://note.youdao.com/iyoudao/?p=2411",headers=ua_header) #urlopen()函数,url是必须要传入的,data如果传入就是POST请求,如果不传就是GETT请求 response = urlopen(request) #到服务器返回的数据,读取里面的全部内容 response_data = response.read() #打印返回的数据 print(response_data.decode("utf-8"))

只在请求头(ua_header)里面添加(User-Agent)只是最简单的伪装反爬，更多的反爬虫的方式包括但不限于cookie，session，代理等等。反爬方式有待探究，下次讨论简单代理以及爬虫的其他库

转载于:https://www.cnblogs.com/LoongitArt/p/9398466.html

weixin_30653023

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
浅谈爬虫《一》 ===python

浅谈爬虫《一》 ===python ‘’正文之前先啰嗦一下，准确来说，在下还只是一个刚入门IT世界的菜鸟，工作近两年了，之前做前端的时候就想写博客来着，现在都转做python了，如果还不开始写点什么，估计时间都不会原谅这么懒散的我了……闲话到此，下面说正事儿——首先来个爬虫简介咋一听挺神秘的样子，简单来讲爬虫就是从网络获取资源，比如你想知道淘宝上的女装什么颜色的销量好，或者哪一款...
复制链接

扫一扫