用Python第一个爬虫程序（urllib.request)

最新推荐文章于 2024-07-31 16:23:51 发布

Darcy__

最新推荐文章于 2024-07-31 16:23:51 发布

阅读量187

点赞数

分类专栏： Python Program 文章标签：爬虫 python

本文链接：https://blog.csdn.net/BugOverseas/article/details/82783762

版权

Python 同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

Program

2 篇文章 0 订阅

订阅专栏

这是博主第一个小爬虫程序，纪念一下

2018/09/20

之前在ubuntu里面已经实现，不过今天开始使用pycharm，折腾了一上午…终于打出来了。

话不多说…

目标：爬取博主一篇博文(Path of Python – 爬虫)里面的游览数。

import re
import urllib
from urllib import request

pat='<span class="read-count">阅读数：(.*?)</span>'
data=urllib.request.urlopen("https://blog.csdn.net/BugOverseas/article/details/82762819").read()
datanew=data.decode("utf-8")
rst=re.compile(pat).findall(datanew)
print(rst)

输出结果：
在这里插入图片描述

之前没有加上decode("utf-8")，啥也出不来，因为data里面用的应该是unicode编码，经陈哥提醒，ok。这也说明要好好了解下编码问题了。过几天博主整理下该类问题。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Darcy__

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
用Python第一个爬虫程序（urllib.request)

这是博主第一个小爬虫程序，纪念一下2018/09/20之前在ubuntu里面已经实现，不过今天开始使用pycharm，折腾了一上午…终于打出来了。话不多说…目标：爬取博主一篇博文(Path of Python – 爬虫)里面的游览数。import reimport urllibfrom urllib import requestpat='&amp;lt;span class=&quot;rea...
复制链接

扫一扫