爬虫python需要哪些软件_使用urllib和bs4实现简单的爬虫程序

最新推荐文章于 2022-12-26 22:17:53 发布

weixin_39849127

最新推荐文章于 2022-12-26 22:17:53 发布

阅读量174

点赞数

文章标签：爬虫python需要哪些软件

接触Python有段时间了，一直都听说Python写爬虫多么的强大，俺之前也使用其他语言写过爬虫程序，今天就来使用Python来练习练习，目的是爬取吾八哥网(Http://www.5bug.wang)首页所有的文章内容标题，链接，作者，以及内容信息。使用到了urllib和bs4模块，其中bs4模块需要提前安装一下，安装方法为执行命令：pip install bs4，非常简单的！下面贴出我的练习代码：import urllib.request

import re

import bs4

#获取首页html内容

url_home = 'http://www.5bug.wang'

response = urllib.request.urlopen(url_home)

html = response.read().decode('utf8')

#使用正则表达式来匹配所有的文章链接

soup = bs4.BeautifulSoup(html, 'html.parser')

pattern = 'http://www.5bug.wang/([\s\S]*)\.html'

links = soup.find_all('a', href=re.compile(pattern))

url_set = set()

for link in links:

url_set.add(link['href'])

#根据抓取到的文章链接，来进一步抓取文章页面具体信息

for url in url_set:

response = urllib.request.urlopen(url)

html = response.read().decode('utf8')

soup = bs4.BeautifulSoup(html, 'html.parser')

page = soup.find('div',{'class', 'content'})

url = url

title = page.find('h1').get_text()

author = page.find('h4').get_text()

content = page.find('article').get_text()

#print(title, url, author, content)

print(title, url, author) #为了截图，不打印具体的文章内容信息

print('抓取完成!=====================================================')

还是比较简单的，不过这里面没有做什么异常处理，后面我们慢慢的进行完善！以上代码，运行截图如图：

weixin_39849127

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬虫python需要哪些软件_使用urllib和bs4实现简单的爬虫程序

接触Python有段时间了，一直都听说Python写爬虫多么的强大，俺之前也使用其他语言写过爬虫程序，今天就来使用Python来练习练习，目的是爬取吾八哥网(Http://www.5bug.wang)首页所有的文章内容标题，链接，作者，以及内容信息。使用到了urllib和bs4模块，其中bs4模块需要提前安装一下，安装方法为执行命令：pip install bs4，非常简单的！下面贴出我的练习代码...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。