python----爬虫

最新推荐文章于 2021-02-22 10:21:58 发布

不知博者

最新推荐文章于 2021-02-22 10:21:58 发布

阅读量537

点赞数

分类专栏： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36278071/article/details/72084841

版权

这篇博客记录了作者学习Python爬虫的过程，通过扒取图片作为实践案例，对爬虫进行了初步的了解和总结。

摘要由CSDN通过智能技术生成

星期天看了一篇博客，就是关于一个扒取图片的爬虫，于是就学了学，现在做一点笔记，方便记忆。

这里只做一些粗略的总结。

#-*- coding:utf-8 -*-

这句是文本以utf-8编码方式



import requests
import re


url= 'https://www.porn.com/pictures'
html=requests.get(url).text
pic_url=re.findall('background-image:url(.*?);',html,re.S)


i=0
print pic_url




这两句没什么好说的，text方法保存get方法获取的内容，然后用re.findall()函数筛选出需要的内容。
运行了一下你会发现，输出的列表里面的值前面都有一个字符'u'，这表示里面的字符数是用unicode编码方式，
这种编码方式是不能用string函数操作的否则就会出错。
你要是不想对每个列表中的元素进行操作的话，可以直接用的。
可能是因为运行环境的问题，我不太确定在Notepad++中是可以直接对它进行string操作的
对于unicode编码的解决方法下面会有介绍。



查看网页源码我们会发现，url之后加上主页上面图片链接的中间第三组数字

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

不知博者 CSDN认证博客专家 CSDN认证企业博客

码龄8年

27: 原创

30万+: 周排名

42万+: 总排名

19万+: 访问

: 等级

1424: 积分

142: 粉丝

130: 获赞

90: 评论

546: 收藏

私信

关注

热门文章

分类专栏

最新评论

仿射密码的硬破解
qq_58318484: a的取值我能理解，为什么b值的取值在-10~10之间，a值不变的情况下周期是20？
Java监听端口（一）
xiaozoom: br后面的+去掉,增加两个引用 [code=java] import java.io.File; import java.io.FileWriter; [/code]
python爬虫编码彻底解决
m0_5552: 百度网页确实是用UTF-8编码的.而不是ISO-8859-1.之所以会出现ISO这个编码,是因为requests库的问题导致的. 最根本的原因是百度网页的响应头中的"Content-Type: text/html;charset=utf-8"字段中包含了字符串"text",直接导致requests模块将该网页识别为"未明确指定编码方式",从而采用了该模块内部的默认解码方式,即ISO-8859-1. 查看requests模块的代码即可发现这一重要的信息.
交流转直流降压、稳压电路
夏虫不可语冰..: 楼主你电感用的多大的？
反相器电路
5i5+: 工射极放大电路

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。