python爬虫
1.爬取识货篮球鞋首页并对球鞋品牌做词频统计生成词云
思路:
一、爬网页
1.导包 2.爬取对象的链接 3.获取网页信息 4.通过正则清洗数据 5.创建一个字符串变量接收 爬取出来的信息并变成一个完整的字符串(拼接字符串)
二、词频统计
1.创建一个字典用于保存整理后的字符串 2.jieba库进行分割 3.剔除掉异常数据并对词频数据进行统计 4.定义一个函数用于保存数字数据 5.把字典类型转换成列表类型并对第二列进行排序、逆序
三、词云制作
1.构造字符串变量保存统计后的列表类型的词语 2.设置一个变量用于保存呈现图片路径 3.导入中文字体,创建词云面板 4.获取字符串变量 5.生成一个新的词语图片
##### 爬取阶段 # 导入模块包 import requests import re import jieba import wordcloud from imageio import imread # 对象链接 url = "http://www.shihuo.cn/basketball" # 获取网页信息 response = requests.get(url) text = response.text # print(text) # 正则 拿到自己的需求数据 shoe_name = re.findall('<div class="title">(.*?)</div>', text) print(shoe_name) # 创建字符串并连接已爬的信息列表 shoe_name_str = "" for name in shoe_name: shoe_name_str += name # print(shoe_name_str) ##### 词频统计 # import jieba # 创建一个字典用来统计词语 sh