python 网络爬虫技术正则表达式爬取校园新闻网（实战演练）

最新推荐文章于 2022-01-24 17:42:40 发布

高山莫衣

最新推荐文章于 2022-01-24 17:42:40 发布

阅读量1k

点赞数 1

分类专栏： python爬虫文章标签： python 网络爬虫技术校园新闻网正则表达式中文字符

原创作品，共同进步！

本文链接：https://blog.csdn.net/AdamCY888/article/details/103208737

版权

python爬虫专栏收录该内容

6 篇文章 0 订阅

订阅专栏

爬取网站：某某校园新闻网
代码：

##爬取网站：校园新闻网

import requests
import re


heads = {
     'Connection': 'keep-alive',
    'Accept-Language': 'zh-CN,zh;q=0.9',
     'Accept': 'text/html,application/xhtml+xml,application/xml;\
     q=0.9,image/webp,image/apng,*/*;q=0.8',
     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36\
    (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
}  ##heads非必要

##
##r.encoding = "utf-8"
response = requests.get('https://news2014.ctbu.edu.cn/', headers = heads)
##print(response)
response.encoding = "utf-8"
content = response.text
pattern = re.compile('<li><.*?>(.*?)</span><.*?title="(.*?)</a></li>',re.S)
results = re.findall(pattern, content)
    

f = open(r'C:\Users\AdamCY\Desktop\wenjian\python爬虫\xinwenwang.txt','w',encoding='utf-8')
for result in results:
    f.writelines([result[0],'\t', result[1],'\n'])
f.close()
print("TXT文本数据保存成功")

效果：
文本展示