采集网页静态文本内容

爬取政府工作报告(服从爬虫协议规范)

import requests
import datetime
import sys
from lxml import etree
import re

#输入任意字符
inpu = input()
#判断使用者输入是否为整数
if inpu.isdigit()==True:
    input_year = int(inpu)
else:
    print("输入类型不符请重试!")
    sys.exit()

#当前年份
max_year = datetime.datetime.now().year
print(type(max_year))

#设定url和headers
if input_year in range(2014,max_year):
    url = 'http://www.gov.cn/guowuyuan/'+str(input_year)+'zfgzbg.htm'
else:
    url = 'http://www.gov.cn/guowuyuan/zfgzbg.htm'
print(url)

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.135 Safari/537.36'
}

#发送请求
response = requests.get(url = url,headers = headers)
response.encoding = 'utf-8'
html = response.text
html_tree = etree.HTML(html)
result = html_tree.xpath('//div[@id="conlun2_box_text"]/descendant::text()')
print(type(result))
for i in result:
    print(i)
with open('spider.txt','a',encoding = 'utf-8') as file:
    file.write('\n'.join(result))
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值