最近比较闲,就准备入门一下python,正好看到别人的python爬虫案例,就在VS下面试了一下,还挺好玩,分享给大家!(有部分转载内容,有兴趣可以看一下这位博主的博客文章:Python写一个简单的爬虫样例(不超过50行代码))
1. 首先安装VS
在安装界面有个安装python环境的选项,选中即可,这个就不必赘述了
2. 如果已经安装了VS,忘记了安装python环境
选中 工具->获取工具和功能 可以找到Python开发组件,选中后点击右下角的修改即可。
3. 新建python项目
通过 文件->新建->项目->Python->Python 应用程序->确定 即可
4. 爬虫代码
此时就可以写最简单的python程序了,但是使用爬虫我们还是需要一些其他的支持包,这里先把代码给出来,可以直接copy进新建的应用程序里:
# coding=utf-8
import requests#导入requests包
from bs4 import BeautifulSoup#从bs4导入beautifulsoup包
# 获取html文档的函数,下面会调用
def get_html(url):
"""get the content of the url"""
response = requests.get(url)#从链接获取所有的网页源码
response.encoding = 'utf-8'#转化编码模式为utf-8
return response.text#返回转化之后的源码
# 获取笑话的函数,下面会调用
def get_certain_joke(html):
"""get the joke of the html"""
soup = BeautifulSoup(html, 'lxml')#使用lxml解析器对网页进行解析(可以使用默认解析器,但是lxml解析器功能更加强大)
joke_content = soup.select('a[class="recmd-content"]')[0].get_text()#获取标签为a,属性class为"recmd-content"的内容,取第一条的内容(可以查看网页源码之后确定搜索的内容)
return joke_content#返回得到的内容
url_joke = "https://www.qiushibaike.com"#网页地址
html = get_html(url_joke)#获取网页源码
joke_content = get_certain_joke(html)#获取内容
print (joke_content)#打印获取的内容
代码很简单,注释也做了,应该都看得懂,下面就是配置需要的依赖包了(可以不进行下一步,首先运行程序,尝试一下,看看哪里报错,会有更深的理解)
5. 进入windows的命令行,
方法很简单,首先使用 win+R 组合键进入搜索,然后输入 cmd 之后回车或者点击确定均可。或者直接在 Cortana 的搜索里面搜索 cmd 或者 命令提示符 也可以进入。
6. 更新pip版本(可以不用,最好更新一下,赶时髦)输入:
python -m pip install --upgrade pip
回车等待即可
7. 然后安装requests依赖包,输入:
pip install requests
回车等待即可
9. 安装bs4依赖包,输入:
pip install bs4
回车等待即可
10. 安装lxml解析器,输入:
pip3 install lxml
回车等待即可
- 配置完成,可以直接点击调试,看一下效果,应该是如下界面: