python爬虫一_wbdata爬-CSDN博客

本文链接：https://blog.csdn.net/qq_26295547/article/details/83062018

1. 安装pip

官网下载最新pip.zip ，解压并在当前目录进入cmd，执行 setup.py 安装文件

命令： python setup.py install

tip：可以下载可执行文件双击执行安装，但都需配置环境变量

把 pip命令加入到Path环境变量中，提示：安装好的pip命令位置在python 目录下的Scripts文件夹中

配置好后重新进入cmd 用 pip / pip --version 试验是否配置成功

2. 利用pip安装写爬虫所需要的第三方库

2.1 pip install requests

requests 模块用于发起http请求

2.2 pip install bs4

bs4 模块的 BeautifulSoup 用于解析HTML响应

2.3 pip install pymongo

用到再补

2.4 pip install selenium

Selenium是一个用于Web应用的功能自动化测试工具，Selenium 直接运行在浏览器中，就像真正的用户在操作一样。

由于这个性质，Selenium也是一个强大的网络数据采集工具，其可以让浏览器自动加载页面，获取需要的数据，甚至页面截图，或者是判断网站上某些动作是否发生。

2.5 pip install Pillow

用到再补

2.6 pip install pytesseract

用到再补

3. 环境准备

腾讯新闻网址URL : http://news.qq.com/

选中一条新闻标题审查元素，可以发现新闻标题结构是这样的：

<div class="text">
<em class="f14 l24">
<a target="_blank" class="linkto" href="http://news.qq.com/a/20170104/000968.htm">台拟将蔡英文贺岁春联“自自冉冉”一词列入辞典
</a>
</em>
</div>

4. 编写爬取代码

#config utf-8
import requests
from bs4 import BeautifulSoup

url = "http://news.qq.com/"
wbdata = requests.get(url).text
soup = BeautifulSoup(wbdata,"html.parser")
news_title = soup.select("div.text > em.f14 > a.linkto")

f = open("crawler.txt",'a',encoding='utf-8')
#对返回的列表进行遍历
for n in news_title:
    title = n.string
    link = n.get('href')
    print("标题："+title +"；链接："+link+".\n")
    f.write("标题："+title +"；链接："+link+".\n")