python将字符写入excel_Python 爬虫并且将数据写入Excel

最新推荐文章于 2024-01-08 15:04:54 发布

weixin_39663970

最新推荐文章于 2024-01-08 15:04:54 发布

阅读量619

点赞数

文章标签： python将字符写入excel

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39663970/article/details/111441631

版权

本文介绍了使用Python进行简单的网站爬虫，解析HTML代码，利用BeautifulSoup库提取数据，并将数据存储到Excel文件的过程。示例包括从实习僧网站抓取实习岗位信息，如职位名称和链接。

摘要由CSDN通过智能技术生成

听到网站爬虫，很多人都觉得很高大上，爬虫是不是黑客才能干的事啊？今天这里展示了一个简单的爬虫程序，并且对数据进行读取分析，最后写入Excel文件。

难点在于分析HTML代码上，最起码您得看得懂HTML代码。

requests库

requests库功能很强大，这里我们需要用到它都只是我们给它一个网址，然后让它将html代码获取下来：

import requests

headers = {

'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.100 Mobile Safari/537.36'}

r = requests.get('http://www.baidu.com', headers=headers)

print(r.text)

有些网站含有防爬虫机制，如果不设置UserAgent就无法获取准确的网站内容。那么该如何取得User-Agent到值：

如果你使用到送chrome浏览器，那么按F12，然后再刷新页面，在Network页面中选择all，再在左侧到www.baidu.com中找到Headers中找出User-Agent复制即可，其它网页也是类似操作。

image-20200213153036379.png

运行之后将会得到baidu.com首页都全部代码：(代码太长，此处省略)

提取HTML数据：Beautiful Soup

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.

好，现在查阅了Beautiful Soup官网都基本说明，我们可以来完成一个最简单都爬虫代码，获取到百度的title值：

import requests

from bs4 import BeautifulSoup

headers = {

'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.100 Mobile Safari/537.36'}

r = requests.get('http://www.baidu.com', headers=headers)

soup = BeautifulSoup(r.text, 'html.parser')

pagetitle = soup.find("title")

print(pagetitle.get_text())

运行以后得到：

百度一下

进程已结束，退出代码 0

其实还是相当简单的对吧，下面我们再把难度提高一点点，去获取一个复杂点都网站，并且把它写入Excel文件里面。

爬虫实行僧网站

下面到例子是爬取实习僧网站，是一个实习生的招聘网站。

我们想爬取到是从page=1-page=4之间的所有页面，即是从：

到

之间的所有网页：

那么按照上面的代码，我们可以写出以下的代码：

import requests

htmls = []

headers = {

'User-Agent': 'Mo

最低0.47元/天解锁文章

weixin_39663970

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。