python3.6爬虫库_python3.6实现简单爬虫功能,获取图片

要开始讲一下简单的网络爬虫,网络是web,像一张网一样,然后爬虫用的英语是spider,是蜘蛛的意思,意思就是在互联网上捕捉昆虫等的蜘蛛,就叫做网络爬虫是不是很形象!

在python3.0以前,网络爬虫用的都是urllib和urllib2模块,在3.0以后这个库改为urllib.request这个模块了,在下面的调用方法也是这个模块。

首先我们要知道我们在网上爬取什么,比如我们现在就是要将一个获取网页图片的功能,当然了如果你不嫌麻烦可以自己用鼠标右键点击图片另存为~~~不过我们今天要讲的就是用python语言实现这个图片抓取的功能。

学这个之前先学一下正则表达式的知识吧,我这里有文章大家自己可以看一下:

网址:http://blog.sina.com.cn/s/blog_7003de9e0102x0tu.html

学习完正则表达式之后,我们来看一下百度贴吧上面的图片怎么获取。

打开百度贴吧:https://tieba.baidu.com/p/5306226942

然后用google浏览器查看图片地址

发现都是已src开头以.jpg结尾的

然后我们写下如下的代码:

#coding=utf-8

import urllib.request

import re

url = "https://tieba.baidu.com/p/5306226942";

page = urllib.request.urlopen(url)

html = page.read()

reg = r'src="(.*?\.jpg)"'

imgre = re.compile(reg)

html=html.decode('utf-8')

imglist = re.findall(imgre,html)

x = 0

for imgurl in imglist:

urllib.request.urlretrieve(imgurl,'%s.jpg' % x)

x+=1

作者开始解释代码的含义:

#coding=utf-8 字符编码是utf-8的字符编码

import urllib.request 导入urllib.request 模块

import re 导入正在表达式模块

url = "https://tieba.baidu.com/p/5306226942"; 设置网页网址是这个

page = urllib.request.urlopen(url) 打开网页

html = page.read() 读取网页文档

reg = r'src="(.*?\.jpg)"' 设置正在表达式字符串

imgre = re.compile(reg) 设置正在表达式字符串变成正则表达式对象然后可以使用

html=html.decode('utf-8')

把读出来的网页编码集设置为utf-8,这是python3.x以后才规定的,python3.0以前没有

imglist = re.findall(imgre,html) 根据正则表达式获取出符合条件的图片链接

然后用循环函数for循环图片

在循环函数里面用urllib.request.urlretrieve(imgurl,'%s.jpg' %

x)函数下载图片就可以了,然后把图片名字重新编排了一下,运行之后的效果是这样的

图片就被下载下来了,是不是也很简单?

本文内容转载自网络,本着分享与传播的原则,版权归原作者所有,如有侵权请联系我们进行删除!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python 3.6是一种广泛使用的编程语言,也可以用于国家政策文本分析。下面是一个使用Python 3.6进行国家政策文本分析的示例代码。 首先,我们需要使用Python的内置和第三方进行文本处理和分析。例如,我们可以使用`re`进行正则表达式匹配,使用`nltk`进行自然语言处理,以及使用`pandas`进行数据分析。 然后,我们需要获取国家政策文本数据。可以通过网络爬虫从政府网站或其他资源获取政策文本数据,也可以使用本地文本数据进行分析。获取到文本数据后,我们可以对其进行预处理,例如去除标点符号、停用词和数字等,以便更好地进行分析。 接下来,我们可以使用文本分析技术对政策文本进行分析。例如,可以使用文本分类算法对政策文本进行分类,识别出不同类别的政策。也可以使用文本聚类算法对政策文本进行聚类,找出相似的政策。还可以使用关键词提取算法提取出文本中的关键词,帮助我们快速理解政策的重点内容。 最后,我们可以使用可视化工具对分析结果进行可视化展示。例如,可以使用`matplotlib`绘制柱状图、折线图或词云图,展示不同类别的政策数量或关键词的频率分布等。 总结来说,Python 3.6可以作为一种强大的工具,用于国家政策文本分析。通过合理使用Python和算法,我们可以更好地理解和分析政策文本,为政府决策提供支持和参考。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值