百度了几种爬虫实现方案,先尝试了BeautifulSoup,初步上手比较容易,然后又实现了将爬到内容保存到了excel种。
首先安装pycharm软件(我使用的是免费版本的),新建个项目,再新建一个python文件
完整代码
import requests
from bs4 import BeautifulSoup
# 用于保存excel
import pandas as pd
# 百度热搜
url = "https://top.baidu.com/board?platform=pc&sa=pcindex_entry" # 要爬取的网页链接
res=requests.get(url)
soup=BeautifulSoup(res.text,'html.parser')
# 获取热搜的html list
list=soup.find_all(class_="normal_1fQqB")
# 序号数组
numberList=[]
# 标题数组
titleList=[]
# 遍历输出热搜内容
for i in list:
# 序号
number=i.find(class_='index_k2hIU').get_text()
numberList.append(number)
# 标题
title=i.find(class_='c-single-text-ellipsis').get_text()
titleList.append(title)
print(number,title)
# 存入excel数据 列
data = {
'NO':numberList,
'title': titleList
}
df = pd.DataFrame(data)
# 保存到Excel文件
file_path = 'HotTop.xlsx'
# 导出excel 文件名 sheet名 是否生产index
df.to_excel(excel_writer=file_path,sheet_name='百度热搜', index=False)
依赖
```
pip install requests
pip install BeautifulSoup
pip install pandas
```
遇到问题:在安装依赖是,报错超时了,上网查后了解是镜像源问题,更改镜像为清华的源,再重新安装就好了,如下
```
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
```
最终在py文件同级生成了一个excel
excel内容
OKK~~
又是美好的一天呀,keep going!