Python 学习之路------0723（python爬虫实现爬取网页文本并做词频词云）

最新推荐文章于 2025-02-15 23:04:18 发布

sinat_39381092

最新推荐文章于 2025-02-15 23:04:18 发布

阅读量3.5k

点赞数 2

分类专栏： python 爬虫

本文链接：https://blog.csdn.net/sinat_39381092/article/details/96994524

版权

python爬虫

1.爬取识货篮球鞋首页并对球鞋品牌做词频统计生成词云

思路：

一、爬网页

1.导包 2.爬取对象的链接 3.获取网页信息 4.通过正则清洗数据 5.创建一个字符串变量接收爬取出来的信息并变成一个完整的字符串（拼接字符串）

二、词频统计

1.创建一个字典用于保存整理后的字符串 2.jieba库进行分割 3.剔除掉异常数据并对词频数据进行统计 4.定义一个函数用于保存数字数据 5.把字典类型转换成列表类型并对第二列进行排序、逆序

三、词云制作

1.构造字符串变量保存统计后的列表类型的词语 2.设置一个变量用于保存呈现图片路径 3.导入中文字体，创建词云面板 4.获取字符串变量 5.生成一个新的词语图片

##### 爬取阶段
# 导入模块包
import requests
import re
import jieba
import wordcloud
from imageio import imread
# 对象链接
url = "http://www.shihuo.cn/basketball"
# 获取网页信息
response = requests.get(url)
text = response.text
# print(text)
# 正则 拿到自己的需求数据
shoe_name = re.findall('<div class="title">(.*?)</div>', text)
print(shoe_name)
# 创建字符串并连接已爬的信息列表
shoe_name_str = ""
for name in shoe_name:
    shoe_name_str += name
# print(shoe_name_str)

##### 词频统计
# import jieba
# 创建一个字典用来统计词语
sh