实现爬取csdn个人博客并导出数据

本文介绍使用Python的lxml和urllib.request库爬取CSDN个人博客内容的过程。在实现中,作者遇到XPath获取的URL需要进一步解析二级页面的问题,通过逐层解析解决了这个问题。文章最后对Caso_卡索博主表达了感谢。
摘要由CSDN通过智能技术生成

因为最近也在学习python,爬虫和一点pandas的内容
刚好看到一篇博客,博客地址:https://blog.csdn.net/xiaoma_2018/article/details/108231658也是实现一样的内容的,只是使用的方式被我改了一下,我也是借鉴学习大佬的方法
我所使用到的库有lxml, urllib.request

代码如下

'''
导入所需要的库
'''
import urllib.request as ur
import lxml.etree as le
import pandas as pd
from config import EachSource,OUTPUT

url = 'https://blog.csdn.net/shine_a/article/list/2'

#得到博客所有内容
def get_blog(url):
    req = ur.Request(
        url=url,
        headers={
   
            'cookie':'c_session_id%3D10_1600923150109.901257%3Bc_sid%3D40c3e11ae0d6021f6f8323db1cc321a1%3Bc_segment%3D9%3Bc_first_ref%3Dwww.google.com.hk%3Bc_first_page%3Dhttps%253A%2F%2Fwww.csdn.net%2F%3Bc_ref%3Dhttps%253A%2F%2Fblog.csdn.net%2F%3Bc_page_id%3Ddefault%3B',
            'User_Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gec
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值