19.2 Python入门之编写爬虫实战

最新推荐文章于 2020-08-03 20:08:14 发布

剑雨巍巍

最新推荐文章于 2020-08-03 20:08:14 发布

阅读量376

点赞数

分类专栏： Python学习笔记文章标签： python 爬虫实战

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lwz45698752/article/details/79251416

版权

Python学习笔记专栏收录该内容

31 篇文章 1 订阅

订阅专栏

准备：

Beatiful Soup库：该库可以从HTML或XML文件中提取数据，通过转换器实现常规的文档导航，查找，修改等操作,该库需要安装后使用

目标：

编写爬虫，爬取百度百科“网络爬虫”的词条（"http://baike.baidu.com/view/284853.htm"），并将所有包含“view”关键字的链接按格式打印出来

实现过程：

首先使用前先使用urllib.request模块从指定网址上读取HTML文件

>>>import urllib.request

>>>from bs4 import BeatifulSoup

>>>url = "http://baike.baidu.com/view/284853.htm"

>>>response = urllib.request.urlopen(url)

>>>html = response.read()

>>>soup = BeatifulSoup(html,"html.parser")

BeatifulSoup需要两个参数，第一个参数是所提取数据的所在HTML或XML文件，第二个参数是指定解析器，然后使用find_all(href = re.compile("view"))方法来读取所有包含“view”关键字的链接（使用正则表达式知识），使用for语句迭代读取

>>>import re

>>>for each in soup.find_all(href = re.compile("view")):#???

print(each.text,"- >","".join(["http://baike.baidu.com",\each["href"]]))

最终代码为

for each in soup.find_all(href = re.compile("view")):#???

print(each.text,"- >","".join(["http://baike.baidu.com",each["href"]]))

import urllib.request

from bs4 import BeatifulSoup

import re

def main():

url = "http://baike.baidu.com/view/284853.htm"

response = urllib.request.urlopen(url)

html = response.read()

soup = BeatifulSoup(html,"html.parser")

for each in soup.find_all(href = re.compile("view")):#???

print(each.text,"- >","".join(["http://baike.baidu.com",each["href"]]))

if _ _name_ _ == "_ _main_ _": #只有单独运行该.py文件才会执行main（）

main()

目标：爬虫接收用户输入的关键词，进入每一个词条，然后检测该词条是否有副标题，若有，则打印出来

代码清单

import urllib.request

import urllib.parse

from bs4 import BeatifulSoup

import re

def main():

keyword = input("请输入关键词：")

keyword = urllib.parse.urlencode({"word":keyword}) #?

response = \

urllib.request.urlopen("http://baike.baidu.com/search/word?%s"%\

keyword)

html = response.read()

soup = BeatifulSoup(html,"html.parser") #操作文件中数据，如查找等

for each in soup.find_all(href = re.compile("view")):

content = ''.join([each.text])

ur12 = ''.join(["http://baike.baidu.com",each["href"]])

response2 = urllib.request.urlopen(ur12)

html2 = response2.read()

soup2 = BeatifulSoup(html2,"html.parser")

if soup2.h2:

content = ''.join([content,soup2.h2.text])

content = ''.join([content,"->",ur12])

print(content)

if _ _name_ _ == "_ _main_ _": #只有单独运行该.py文件才会执行main（）

main()

上述程序某些语句语法待继续学习

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
19.2 Python入门之编写爬虫实战

Beatiful Soup库该库可以从HTML或XML文件中提取数据，通过转换器实现常规的文档导航，查找，修改等操作使用前先使用urllib.request模块从指定网址上读取HTML文件>>>import
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。