第一步、
首先安装Python3环境 根据自己电脑系统,windows或liunx版本。
下载网址:https://www.python.org/downloads/
这块就不在介绍如何安装了,很简单。
第二步、pip安装Jupyter Notebook 这块主要是python3 ide
这里两个版本安装上jupyter notebook
python -m pip install --upgrade pip --force-reinstall
python -m pip install jupyter
安装成功后直接运行
jupyter notebook
这里有一个小技巧可以分享一下:我们每次启动jupyter notebook都需要打开在cmd输入jupyter notebook,尤其是有时候还需要cd进某文件夹。
因此,可以新建一个txt文件,用以下语句写一个BAT脚本,保存为 jupyter notebook.bat
rem -- start_jupyter_notebook.bat ---
jupyter notebook
pause
将该BAT文件放在你想放置的文件位置中,再将文件的快捷方式发送至桌面,就可以方便启动了!
启动jupyter notebook之后,可以看到只有一个kernel存在。
第三步、安装几个重要的组件
1、pip install requests
地址:https://www.cnblogs.com/changpuyi/p/9439422.html
2、pip install beautifulsoup4
网址:https://blog.csdn.net/sinat_34937826/article/details/79992728
第四步、举个爬虫小列子,获取cctv官网所有的数据
脚本内容:
import requests
from bs4 import BeautifulSoup as bs
r = requests.get("http://www.cctv.cn/")
r.encoding = r.apparent_encoding
soup = bs(r.text)
for trr in soup.findAll('div',{'class':'wrapper'}):
print("描述:"+trr.text)
如果有兴趣的同学,可以实现爬虫到的数据插入指定的数据库中,可以研究研究。
参考网址:
https://blog.csdn.net/Robotzzg/article/details/80348579
https://blog.csdn.net/zoulonglong/article/details/79552813
https://www.cnblogs.com/changpuyi/p/9439422.html
https://blog.csdn.net/Air_RA/article/details/85225712#commentsedit