#爬取起点小说网的例子,本文中采取了xpath提取信息的方法,之后还有别的方法。
import requests
from fake_useragent import UserAgent
import time
from bs4 import BeautifulSoup as bs
from lxml import etree
def get_html(url): #创建一个通用得网页的函数
try:
headers = {'UserAgent':UserAgent().chrome}
r = requests.get(url,headers = headers)
r.raise_for_status
r.encoding = r.apparent_encoding
return r.text
except Exception as e:
return "爬取失败{}".format(e.args)
def ap_html(html): #获得一个搜索出圣墟内容的网页
e = etree.HTML(html)
url_num = e.xpath('//div/a[@data-algrid="0.0.0"]/@href')
#使用xpath进行爬取,提取出所有关于圣墟关键字小说名字的url
return url_num
def contents(url_num): #获得圣墟小说的阅读网页
#提取出第一个url地址就是圣墟小说url
con_html = get_html("https:{}".format(url_num[0]))
return con_html #获得页面
def main():
if __name__ == '__main__':
x = input("请输入搜索的小说名字:") #例子拿《圣墟》
url = "https://www.qidian.com/search?kw={}".format(x.encode('utf-8'))
html = get_html(url)
url_num = ap_html(html)
print(contents(url_num))
main()
爬虫学习的第一天(requests简单的框架--中阶2)--->xpath 小说
最新推荐文章于 2024-07-12 16:42:46 发布