爬虫python需要哪些软件_使用urllib和bs4实现简单的爬虫程序

接触Python有段时间了,一直都听说Python写爬虫多么的强大,俺之前也使用其他语言写过爬虫程序,今天就来使用Python来练习练习,目的是爬取吾八哥网(Http://www.5bug.wang)首页所有的文章内容标题,链接,作者,以及内容信息。使用到了urllib和bs4模块,其中bs4模块需要提前安装一下,安装方法为执行命令:pip install bs4,非常简单的!下面贴出我的练习代码:import urllib.request

import re

import bs4

#获取首页html内容

url_home = 'http://www.5bug.wang'

response = urllib.request.urlopen(url_home)

html = response.read().decode('utf8')

#使用正则表达式来匹配所有的文章链接

soup = bs4.BeautifulSoup(html, 'html.parser')

pattern = 'http://www.5bug.wang/([\s\S]*)\.html'

links = soup.find_all('a', href=re.compile(pattern))

url_set = set()

for link in links:

url_set.add(link['href'])

#根据抓取到的文章链接,来进一步抓取文章页面具体信息

for url in url_set:

response = urllib.request.urlopen(url)

html = response.read().decode('utf8')

soup = bs4.BeautifulSoup(html, 'html.parser')

page = soup.find('div',{'class', 'content'})

url = url

title = page.find('h1').get_text()

author = page.find('h4').get_text()

content = page.find('article').get_text()

#print(title, url, author, content)

print(title, url, author) #为了截图,不打印具体的文章内容信息

print('抓取完成!=====================================================')

还是比较简单的,不过这里面没有做什么异常处理,后面我们慢慢的进行完善!以上代码,运行截图如图:

201802047856_2836.png

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值