1. 安装pip
官网下载最新pip.zip ,解压 并在当前目录进入cmd,执行 setup.py 安装文件
命令: python setup.py install
tip:可以下载可执行文件双击执行安装 ,但都需配置环境变量
把 pip命令加入到Path环境变量中,提示: 安装好的pip命令 位置在python 目录下的Scripts文件夹中
配置好后 重新进入cmd 用 pip / pip --version 试验是否配置成功
2. 利用pip安装写爬虫所需要的第三方库
2.1 pip install requests
requests 模块用于发起http请求
2.2 pip install bs4
bs4 模块的 BeautifulSoup 用于解析HTML响应
2.3 pip install pymongo
用到再补
2.4 pip install selenium
Selenium是一个用于Web应用的功能自动化测试工具,Selenium 直接运行在浏览器中,就像真正的用户在操作一样。
由于这个性质,Selenium也是一个强大的网络数据采集工具,其可以让浏览器自动加载页面,获取需要的数据,甚至页面截图,或者是判断网站上某些动作是否发生。
2.5 pip install Pillow
用到再补
2.6 pip install pytesseract
用到再补
3. 环境准备
腾讯新闻网址URL : http://news.qq.com/
选中一条新闻标题 审查元素,可以发现新闻标题结构是这样的:
<div class="text">
<em class="f14 l24">
<a target="_blank" class="linkto" href="http://news.qq.com/a/20170104/000968.htm">台拟将蔡英文贺岁春联“自自冉冉”一词列入辞典
</a>
</em>
</div>
4. 编写爬取代码
#config utf-8
import requests
from bs4 import BeautifulSoup
url = "http://news.qq.com/"
wbdata = requests.get(url).text
soup = BeautifulSoup(wbdata,"html.parser")
news_title = soup.select("div.text > em.f14 > a.linkto")
f = open("crawler.txt",'a',encoding='utf-8')
#对返回的列表进行遍历
for n in news_title:
title = n.string
link = n.get('href')
print("标题:"+title +";链接:"+link+".\n")
f.write("标题:"+title +";链接:"+link+".\n")