使用Python3.7实现爬虫技术，获取自己想要的网站数据

最新推荐文章于 2024-04-30 19:32:36 发布

Joe192

最新推荐文章于 2024-04-30 19:32:36 发布

阅读量6.3k

点赞数 3

分类专栏： Python 文章标签： Python

joe192168

本文链接：https://blog.csdn.net/Joe192/article/details/94722117

版权

Python 专栏收录该内容

3 篇文章 2 订阅

订阅专栏

第一步、

首先安装Python3环境根据自己电脑系统，windows或liunx版本。

下载网址：https://www.python.org/downloads/

这块就不在介绍如何安装了，很简单。

第二步、pip安装Jupyter Notebook 这块主要是python3 ide

这里两个版本安装上jupyter notebook

python -m pip install --upgrade pip --force-reinstall

python -m pip install jupyter

安装成功后直接运行

jupyter notebook

这里有一个小技巧可以分享一下：我们每次启动jupyter notebook都需要打开在cmd输入jupyter notebook，尤其是有时候还需要cd进某文件夹。
因此，可以新建一个txt文件，用以下语句写一个BAT脚本，保存为 jupyter notebook.bat
rem -- start_jupyter_notebook.bat ---
jupyter notebook
pause

将该BAT文件放在你想放置的文件位置中，再将文件的快捷方式发送至桌面，就可以方便启动了！

启动jupyter notebook之后，可以看到只有一个kernel存在。

第三步、安装几个重要的组件

1、pip install requests

地址：https://www.cnblogs.com/changpuyi/p/9439422.html

2、pip install beautifulsoup4

网址：https://blog.csdn.net/sinat_34937826/article/details/79992728

第四步、举个爬虫小列子，获取cctv官网所有的数据

脚本内容：

import requests
from bs4 import BeautifulSoup as bs

r = requests.get("http://www.cctv.cn/")
r.encoding = r.apparent_encoding

soup = bs(r.text)
for trr in soup.findAll('div',{'class':'wrapper'}):
print("描述："+trr.text)

如果有兴趣的同学，可以实现爬虫到的数据插入指定的数据库中，可以研究研究。

参考网址：

https://blog.csdn.net/Robotzzg/article/details/80348579

https://blog.csdn.net/zoulonglong/article/details/79552813

https://www.cnblogs.com/changpuyi/p/9439422.html

https://blog.csdn.net/Air_RA/article/details/85225712#commentsedit

关注

3
点赞
踩
32

收藏

觉得还不错? 一键收藏
0
评论
使用Python3.7实现爬虫技术，获取自己想要的网站数据

第一步、首先安装Python3环境根据自己电脑系统，windows或liunx版本。下载网址：https://www.python.org/downloads/这块就不在介绍如何安装了，很简单。第二步、pip安装Jupyter Notebook 这块主要是python3 ide这里两个版本安装上jupyternotebookpython -m pip install...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。