使用Python3.7实现爬虫技术,获取自己想要的网站数据

第一步、

首先安装Python3环境 根据自己电脑系统,windows或liunx版本。

下载网址:https://www.python.org/downloads/

这块就不在介绍如何安装了,很简单。

第二步、pip安装Jupyter Notebook 这块主要是python3 ide

这里两个版本安装上jupyter notebook

python -m pip install --upgrade pip --force-reinstall

python -m pip install jupyter

安装成功后直接运行

jupyter notebook

这里有一个小技巧可以分享一下:我们每次启动jupyter notebook都需要打开在cmd输入jupyter notebook,尤其是有时候还需要cd进某文件夹。
 因此,可以新建一个txt文件,用以下语句写一个BAT脚本,保存为 jupyter notebook.bat
rem -- start_jupyter_notebook.bat ---
jupyter notebook
pause

将该BAT文件放在你想放置的文件位置中,再将文件的快捷方式发送至桌面,就可以方便启动了!

启动jupyter notebook之后,可以看到只有一个kernel存在。

第三步、安装几个重要的组件

1、pip install requests

地址:https://www.cnblogs.com/changpuyi/p/9439422.html

2、pip install beautifulsoup4

网址:https://blog.csdn.net/sinat_34937826/article/details/79992728

第四步、举个爬虫小列子,获取cctv官网所有的数据

脚本内容:

import requests
from bs4 import BeautifulSoup as bs

r = requests.get("http://www.cctv.cn/")
r.encoding = r.apparent_encoding

soup = bs(r.text)
for trr in soup.findAll('div',{'class':'wrapper'}):
    print("描述:"+trr.text)

 

如果有兴趣的同学,可以实现爬虫到的数据插入指定的数据库中,可以研究研究。

 

参考网址:

https://blog.csdn.net/Robotzzg/article/details/80348579

https://blog.csdn.net/zoulonglong/article/details/79552813

https://www.cnblogs.com/changpuyi/p/9439422.html

https://blog.csdn.net/Air_RA/article/details/85225712#commentsedit

 

 

 

 

  • 3
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值