python 网络爬虫及可视化之实现（一）插件准备

ranrantech

已于 2024-06-15 19:14:46 修改

阅读量413

点赞数 2

分类专栏：跟我学python爬虫及可视化文章标签： python 爬虫数据可视化

于 2024-06-15 16:42:15 首次发布

本文链接：https://blog.csdn.net/flowerluo1/article/details/139703727

版权

跟我学python爬虫及可视化专栏收录该内容

7 篇文章 0 订阅

订阅专栏

要实现对特定网站的爬取和分析需安装特定的一些python组件，如数据获取组件request,数据解析组件bs4,以及存储分析组件pandas以及可视化组件matplotlib以及wordcloud词云组件。

说明：因一些网站有反爬机制，因此需要动态生成header信息，为此我们需采取动态更新请求头（Headers）的策略，可以使用requests库结合fake-useragent库来动态生成Header信息。

fake-useragent库用于生成随机的User-Agent字符串，每次请求时都会更新这个字符串，从而避免了被服务器识别出是爬虫工具。这样可以有效绕过简单的反爬机制。

安装准备

#设置安装源为国内清华大学以加快安装速度
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
#安装常用的组件，如果安装遇到权限问题，在后面增加--user参数
pip install requests bs4 pandas fake_useragent matplotlib wordcloud imageio jieba
#如有组件需更新，请用--upgrade参数 如更新openpyxl到最新版本以支持excel文档的读写
pip install --upgrade openpyxl
#如果词云图不显示则应更新安装 Pillow
pip install Pillow==9.5.0

实现中要用到的工具包可以参考以下信息

环境与工具	如何安装	帮助页面
PyCharm
Python 3.x
requests	pip install requests	https://www.runoob.com/python3/python-requests.html
BeautifulSoup4	pip install beautifulsoup4	http://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/
pandas	pip install pandas
matplotlib	pip install matplotlib	https://matplotlib.org/stable/gallery/index.html
wordcloud	pip install wordcloud	https://blog.csdn.net/weixin_69553582/article/details/129906259

ranrantech

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 网络爬虫及可视化之实现（一）插件准备

要实现对特定网站的爬取和分析需安装特定的一些python组件，如数据获取组件request,数据解析组件bs4,以及存储分析组件pandas以及可视化组件matplotlib以及wordcloud词云组件。说明：因一些网站有反爬机制，因此需要动态生成header信息，为此我们需采取动态更新请求头（Headers）的策略，可以使用requests库结合库来动态生成Header信息。
复制链接

扫一扫