第一个python网络爬虫程序

最新推荐文章于 2024-05-27 13:16:19 发布

a869291630

最新推荐文章于 2024-05-27 13:16:19 发布

阅读量238

点赞数

分类专栏：个人文章标签： python

本文链接：https://blog.csdn.net/u013341352/article/details/81951384

版权

个人专栏收录该内容

12 篇文章 0 订阅

订阅专栏

工作原因需要用到爬虫技术，所以就简单的学习了一下，本博客只用来做课程学习记录，不作为其他用途，博客中的内容是参照唐松老师的书籍<

import requests
from bs4 import BeautifulSoup

# 获取页面
link = "http://www.zwskw.com/info/cn/54" # 要获取的页面的地址
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.90 Safari/537.36 2345Explorer/9.3.3.17611'} # 头部信息

r = requests.get(link,headers = headers)

第二步：

# 提取要抓取的内容
soup = BeautifulSoup(r.text, 'lxml')
title = soup.find('div', class_='eui-news-txt').a.text.strip()  # 可以运用浏览器的审查元素功能

第三步：

# 存储要抓取的内容
with open('title.txt', 'a+') as f:
    f.write(title)
    f.close()

最后会在python的同级目录下生成一个名称问title的txt文件，文件中的内容如下所示：
这里写图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

a869291630

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第一个python网络爬虫程序

工作原因需要用到爬虫技术，所以就简单的学习了一下，本博客只用来做课程学习记录，不作为其他用途，博客中的内容是参照唐松老师的书籍&lt;import requestsfrom bs4 import BeautifulSoup# 获取页面link = "http://www.zwskw.com/info/cn/54" # 要获取的页面的地址headers = {'User-Agent':...
复制链接

扫一扫