我的 第一个爬虫脚本:
某网站的段子:
1、首先需要用到requests和lxml库
pip install requests
pip install lxml
#代码如下:
import requests
from lxml import etree
import lxml
#本次使用的是获取知乎上的笑话段子
# 定义url
url = "http://www.goodmood.cc/yulu/10334.html"
#发送请求,获得相应对象
response = requests.get(url=url)
# print(response.text)
#获得html响应文本
html = response.text
#转换为html文档对象
html = etree.HTML(html)
# print(response)
#获得目标数据所在的所有节点
datas = html.xpath("//article[@class='article-content']")
for item in datas:
data = item.xpath("//p/text()")
data1 = '\n'.join(data)
print("这是笑话{0}\n{1}".format(i, data1))
#第一次写,写的不好,多多理解,正在学习中,后续会不断提升质量