公司数据分析部门,希望利用网页数据关键词的搜索热度、点击率、转化率等指标关键词等信息的分析,完成关键词构建,实现商品推广的更大收益。
操作步骤:需要使用Python工具爬取网页数据,并对其进行数据清洗和可视化分析,完成以下任务:
1.使用Python爬虫库抓取网页数据,并保存为DataFrame格式
2.对数据进行预处理,处理空值、重复值、异常值等问题,调整数据类型
3.使用可视化库绘制转化率直方图、点击率、转化率箱线图、市场平均出价前20名条形图
答题注意事项:使用所需代码替换下划线,请勿修改已给出的所有代码,完成题目要求。填写代码需用引号时均使用单引号。
# 1. 爬取数据
import requests # 用于发送网页请求
import pandas as pd # 用于数据处理和保存
from lxml import etree # 用于解析HTML
import matplotlib.pyplot as plt#用于绘制matplotlib图形
# 请求网页、获取网页内容并解析
# 定义目标网址
url = 'https://pydemo.xinchanjiao.com/crawler/jingyingfenxi/keywordHot'
# 发送请求,获取返回结果,并将网页内容进行解码,以便解析
html = requests.get(url).content.decode()
# 使用lxml库的etree模块来解析HTML内容
element = etree.HTML(html)
# 使用XPath来提取表格中的数据
# 通过XPath选择器定位表格中的每一行(<tr>元素)
aa &