我的第一个爬虫程序
爬取“纵横中文网”里的小说
最近开始迷上Python了,当然,最让我着迷的还是它的代码风格,用一句话形容:干净利索脆。
由于我有一些VB基础,现在学Python感觉特别的轻松。
必须要强调一句:兴趣是最好的老师。
既然学写爬虫,先给自己定一个小目标:爬一本小说好了。
从“纵横中文网”里找了部章节少的《神魔武帝》练手,
别看就简简单单爬取一部小说,中间还是闹了不少“妖娥子”。
1、万年不变的开头
肯定是以import开始了,费话太多了,看代码吧!
import requests
from lxml import etree
headers = {
"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 UBrowser/4.0.3214.0 Safari/537.36"
}
我使用的是requests库,当然urllib库也一样的,萝卜咸菜各有所爱。
差点忘了说,我使用的是Python3.7版本。
由于我喜欢用xpath来解析,所以就加载了lxml库。至于BS4,pyquery同样那句话:萝卜咸菜各有所爱
一个标准爬虫,还是在爬取网页时加上headers吧!
url = 'http://book.zongheng.com/showchapter/845503.html'
response = requests.get(url,headers=headers)
html = etree.HTML(response.content)
同样是标准的写法&#