最近在学习Python,当然跟着官方文档学习是最好的,单就单纯的学习语法是枯燥的,所以就想着用python做一些简单的爬虫例子做起,培养兴趣,再一边补充一些语法知识(本身有计算器基础,所以这样选择),废话不多说,从我整合的各项资料步骤进入正题吧。
一、准备工具和环境配置
1.Python3
从官网python官网进入,选择Downloads,进入版本下载界面,根据电脑属性下载匹配的版本(我是windows)进入之后看见的版本选择x84-64的是64位的、x84的是32位的,但是每个都对应着三种不同的选择,其中的区别分别是
web-based: 基于web的,就是执行安装后才透过网络下载python
executable: 可执行的文件,既把要安装的python全部下载好在本机安装
embeddable zipfile:可使用的 zip 压缩档,就是python打包成zip压缩包
我选择的是第三种,方便简洁,省去下载的步骤,只需要解压到你想要放置的目录即可,避免安装路径出现中文字符哦。
接下来就配置python的环境
选中此电脑——>右键——>属性——>高级系统设置——>环境变量——>选择path——>编辑——>编辑文本——>将安装路径复制到里面——>确定
检查是否安装成功成功,可在cmd下输入python,出现下图所示即为成功
2.anaconda
首先在官网下载anaconda官网,同样选择Download,选择适合自己电脑的版本,我是在windows下的64位,自行选择咯。
3.requests
安装好anaconda之后,在开始下选中以管理员的身份运行,即在doc环境下输入:conda install requests 进行requests模块安装,中途选择y就可以继续安装了,安装完之后再输入conda list 进行查看, 在其中就可以找到requests,requests安装完成。
4.PyCharm编辑器
在官网下载PyCharm官网,选择Download下载,选择安装路径即可
5.PyCharm配置
打开PyCharm 点File -> settings,选择Project中的Project Interpreter,选择Project Interpreter为你安装的anaconda路径中的python.exe,否则安装的requests模块会导入不了,第一次没有可点击后面的路径按钮找到安置的地址即可添加,最后点击ok即可啦。
二、代码案例
从最简单的爬虫案例开始,就是从豆瓣的静态页面入手,变化较少,可通过F12查看样式属性即爬取数据特征,爬取豆瓣电影排行榜代码小案例如下:
from bs4 import BeautifulSoup
from lxml import html
import xml
import requests
url = "https://movie.douban.com/chart"
f = requests.get(url) # Get该网页从而获取该html内容
soup = BeautifulSoup(f.content, "lxml") # 用lxml解析器解析该网页的内容, 好像f.text也是返回的html
# print(f.content.decode()) #尝试打印出网页内容,看是否获取成功
# content = soup.find_all('div',class_="p12" ) # 尝试获取节点,因为calss和关键字冲突,所以改名class_
for k in soup.find_all('div',class_='pl2'):# 找到div并且class为pl2的标签
a = k.find_all('span') # 在每个对应div标签下找span标签,会发现,一个a里面有四组span
print(a[0].string) # 取第一组的span中的字符串
爬取结果如下:
暂时的小案例就这样啦,后续复杂的学习,还需要结合python的语法等,慢慢来咯。