Python爬虫的简单入门及实用的实例（1）

最新推荐文章于 2024-05-27 13:16:19 发布

归海刀刀

最新推荐文章于 2024-05-27 13:16:19 发布

阅读量4.9k

点赞数 2

分类专栏：爬虫文章标签：爬span idtransmark st pythospan idtransmar

本文链接：https://blog.csdn.net/HOT_and_COOl/article/details/70212944

版权

爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一.PYthon爬虫的介绍及应用

利用爬虫可以进行数据挖掘，比如可以爬取别人的网页，收集有用的数据进行整合和划分，简单的就是用程序爬取网页上的所有图片并保存在自己新建的文件夹内，还有可以爬社交网站的自拍图，将几十万张的图片合在一起，就知道大众的模样。也可以将爬取的数据进行处理，生成一种可视化的东西。

二.请求网页的过程

（注：编者用的环境为Python3.6.1,python2.x和Python3.x在这个上有所不同，2.x有两个urllib和urllib2，而3.x只有urllib）

主要用到urllib这个库

请求的网页的过程简单的理解就是向服务器发送一个头信息，然后返回一个信息。

可以查看网页的元素看到，
常见的所使用的方法也就是GET，POST
在过滤消息头里可以看出有个参数就是User-Agent,这个就是访问请求的环境，一般为浏览器，如果用程序访问时，为Python3.x，这是就不允许访问了，防止恶意访问，但也有方法伪装

三.简单的爬个网页

import urllib.resquest
url="http://www.baidu.com"
response=urllib.resquest.urlopen(url)
html=respose.read()
for eachline in html:
    print(eachline)

url分为三部分

①第一部分是协议(或称为服务方式)。
②第二部分是存有该资源的主机IP地址(有时也包括端口号)。
③第三部分是主机资源的具体地址，如目录和文件名等。

四.一个好玩的翻译的例子，让你分分钟了解爬虫的好玩之处

import urllib.request
import urllib.parse
import json


content=input("请输入需要翻译的内容:\n")


url='http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=https://www.baidu.com/link'
data={}
data['type']='AUTO'
data['i']=content
data['doctype']='json'
data['xmlVersion']='1.8'
data['keyfrom']='fanyi.web'
data['ue']='UTF-8'
data['action']='FY_BY_CLICKBUTTTON'
data['typoResult']='true'

data=urllib.parse.urlencode(data).encode('utf-8')

response=urllib.request.urlopen(url,data)
html=response.read().decode('utf-8')

target=json.loads(html)
print('翻译结果为：%s' % (target['translateResult'][0][0]['tgt']))

urllib.request.urlopen(url,data)

data为图中的请求数据
url为上上图中的请求网址

归海刀刀

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
Python爬虫的简单入门及实用的实例（1）

一.PYthon爬虫的介绍及应用利用爬虫可以进行数据挖掘，比如可以爬取别人的网页，收集有用的数据进行整合和划分，简单的就是用程序爬取网页上的所有图片并保存在自己新建的文件夹内，还有可以爬社交网站的自拍图，将几十万张的图片合在一起，就知道大众的模样。也可以将爬取的数据进行处理，生成一种可视化的东西。二.请求网页的过程（注：编者用的环境为Python3.
复制链接

扫一扫

专栏目录