Python爬取CSDN博客文章(一):爬取CSDN单个文章(不清洗)

创建一个自己的文章

首先呢我们打开CSDN,自己使用模板并发表文章
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
这样,我们就成功发表了一篇文章
接着,我们打开开发者模式
在这里插入图片描述

初步程序

代码

我们可以根据这个界面,编写一下代码

import requests

def GetHeaders(url):
	headers = {
	    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36',
	    'referer': url,#蓝奏云分享文件链接地址
	    'Accept-Language': 'zh-CN,zh;q=0.9',
	}
	return headers

def cookie_to_dic(cookie):
	cookie_dic = {}
	for i in cookie.split('; '):
		cookie_dic[i.split('=')[0]] = i.split('=')[1]
	return cookie_dic

def GetCSDNArticle(url,cookie):
	rst = requests.get(url,headers = GetHeaders(url),cookies = cookie_to_dic(cookie))
	rst = rst.text
	return rst

rst =GetCSDNArticle("https://blog.csdn.net/qq_45030271/article/details/107121143",r"c_first_page=https%3A//editor.csdn.net/md/%3Fnot_checkout%3D1; uuid_tt_dd=10_19592059850-1593830548222-704084; dc_session_id=10_1593830548222.713159; dc_sid=ff788b93be45e9b59cfcdb8f1e2d7663; SESSION=ce9ad4c6-cdc1-4389-b3b5-1c244e3e1ddc; is_advert=Fri%2C%2023%20Jan%202257%2002%3A42%3A29%20GMT; UserName=qq_45030271; UserInfo=b0d54e06054a45289f1e0dc1338c9105; UserToken=b0d54e06054a45289f1e0dc1338c9105; UserNick=%E8%A8%80%E8%91%89%E3%81%AA%E3%81%97; AU=B59; UN=qq_45030271; BT=1593830555557; p_uid=U000000; c_first_ref=graph.qq.com; Hm_lvt_6bcd52f51e9b3dce32bec4a3997715ac=1593830550,1593830559; announcement=%257B%2522isLogin%2522%253Atrue%252C%2522announcementUrl%2522%253A%2522https%253A%252F%252Flive.csdn.net%252Froom%252Fcompanyzh%252F5o1Kf1RQ%253Futm_source%253D1593515841%2522%252C%2522announcementCount%2522%253A0%257D; Hm_up_6bcd52f51e9b3dce32bec4a3997715ac=%7B%22islogin%22%3A%7B%22value%22%3A%221%22%2C%22scope%22%3A1%7D%2C%22isonline%22%3A%7B%22value%22%3A%221%22%2C%22scope%22%3A1%7D%2C%22isvip%22%3A%7B%22value%22%3A%220%22%2C%22scope%22%3A1%7D%2C%22uid_%22%3A%7B%22value%22%3A%22qq_45030271%22%2C%22scope%22%3A1%7D%7D; Hm_ct_6bcd52f51e9b3dce32bec4a3997715ac=6525*1*10_19592059850-1593830548222-704084!5744*1*qq_45030271; TY_SESSION_ID=29b66440-e269-4286-a7f5-8743617ea999; __gads=ID=e51ee428d137a78d:T=1593830685:S=ALNI_MYs9JKI-tRAzLoDWUwaM2IBaw2BZw; c_ref=https%3A//blog.csdn.net/qq_45030271/article/details/107121143; Hm_lpvt_6bcd52f51e9b3dce32bec4a3997715ac=1593831077; dc_tos=qcxbxi")
print(rst)

在这里,把cookies和address换成自己的

为什么我们在这里要添加这个cookies呢?主要是因为我的文章在这里被禁了,别人看不了,但是自己看得到,所以如果是其他的文章,我们可以不使用cookies
在这里插入图片描述
在这里插入图片描述
将cookies放进我们的程序

运行结果

在这里插入图片描述
(蓝奏云)爬取csdn文章数据txt可以尝试着去清洗一下哈
关于python的蓝奏云直链文章

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

地摊主老袁

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值