我的第一个爬虫

#!/usr/bin/env python
# _*_ coding:utf8 _*_
import requests
import re
#设置url地址
url = "https://zhidao.baidu.com/question/1929141799920161187.html"

#用requests.get方法请求数据
response = requests.get(url)
#将页面的数据制定编码设置为gbk方式。
response.encoding = 'gbk'
#定义html用作接收response的返回结果(原网页的html代码)
html = response.text
#通过正则表达式对网页的html代码进行过滤。
a = re.findall(r'引用买大叔的怪年糕的回答:.*?月涌大江流',html,re.S)[0]
#数据清洗 将a中的<br />标签进行过滤 如果匹配的字符串中有元字符则需要添加\进行转义例如:() 则需要写成a.replace('\(\)','')
b = a.replace('<br />','')
#通过正则表达式进行再过滤。 \d表示以数字开头 该句为以数字开头以句号结尾
c = re.findall(r'\d.*?。',a)
#循环将其输出
for i in c:
print(i)


输出结果:

C:\Users\Administrator\AppData\Local\Programs\Python\Python36\python.exe H:/python/qingqiou.py
1、风萧萧兮易水寒,壮士一去兮不复返。
2、一身转战三千里,一剑曾挡百万师。
3、我本楚狂人,凤歌笑孔丘。
4、醉里挑灯看剑,梦回吹角连营。
5、莫遣只轮回海窟,仍留一箭在天山。
6、君不见,高阳酒徒起草中,长揖山东隆准公。
7、独倚危楼,不信人间别有愁。
8、宁做真小人,不做伪君子。
9、东风吹醒英雄梦,笑对青山万重天。
10、马车幽灵影,潇洒一郎君。
11、一门七进士,父子三探花。
12、君子死知己,提剑出燕京。

Process finished with exit code 0


 

 









  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

时光凉春衫薄

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值