python3系列-爬虫解析

都市朝阳

于 2017-11-30 15:08:17 发布

阅读量366

点赞数

分类专栏：计算机视觉应用

本文链接：https://blog.csdn.net/gengzg/article/details/78676447

版权

计算机视觉应用专栏收录该内容

29 篇文章 2 订阅 ¥79.90 ¥99.00

订阅专栏

本文介绍了使用Python3进行网页爬取的方法，包括利用`urllib.request`和`BeautifulSoup`库获取和解析HTML内容。首先，从'biquge5200.com'网站抓取特定链接，并打印出部分内容。接着，爬取'xiaohua.zol.com.cn'网站的笑话页面，提取类别、标题和内容，并将结果写入文件。

摘要由CSDN通过智能技术生成

import urllib.request
from bs4 import BeautifulSoup

url="http://www.biquge5200.com/52_52542/"
req = urllib.request.Request(url)
response = urllib.request.urlopen(req)
data = response.read()
data=data.decode("gbk")
soup=BeautifulSoup(data)
soup=BeautifulSoup(str(soup.find(id='list')))
list=soup.find_all('a');
for l in range(9,len(list)):
    print(list[l].get('href'),list[l].text)

url="http://www.biquge5200.com/52_52542/150290199.html"
req = urllib.request.Request(url)
response = urllib.request.urlopen(req)
data = response.read()
data=data.decode("gbk")
soup=BeautifulSoup(data)
soup=BeautifulSoup(str(soup.find(id='content'))

了解本专栏

都市朝阳

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
python3系列-爬虫解析

import urllib.requestfrom bs4 import BeautifulSoupurl="http://www.biquge5200.com/52_52542/"req = urllib.request.Request(url)response = urllib.request.urlopen(req)data = response.read()data=data
复制链接

扫一扫