我的第一篇博客

爬虫利器-BeautifulSoup–抓取CSDN文章

首先导入bs4库

爬虫-第一篇
第一次写博客为什么心里砰砰的跳,有些事真的看上去简单,自己做起来又是另一码事。我是某央企某车的一名电气工程师跟高铁有关的。工作两年了,原以为工作了就不用三点一线了,谁知。。。
最近要用到爬虫技术,不知怎么的就来到CSDN了,应该算是被百度给牵过来的,以前以为CSDN就是付费下载资料的地方,后来发现还有好多大神在这里写博客分享经验,从此迷上CSDN了,果断下载APP安装。(这么软的文章居然没收到稿费)
好了~心情平复了,分享下我菜鸟入门学到的总结的一些东西,刚入门还是多看看怎么爬静态网页吧,很简单的,Python这东西值得学,稍微有点C语言基础的就能看懂,跟着例子学就是了。

上代码:

from bs4 import BeautifulSoup
import requests

url = 'https://blog.csdn.net/qq_36962569/article/details/77130755'
# 获得网址源码
html = requests.get(url).content
soup = BeautifulSoup(html, 'lxml')
print('爬取ing')
title = soup.title.string
with open(title+'.txt', 'w') as f:
    href = soup.find_all('p')
    try:
        f.write('\t%s\r\n' %str(title)) #前面%s 后面之间空格加%内容
        for hre in href:
            if(hre.string!=None):       #未解决标签内容回车后打印none问题
                f.write('\t%s\r\n' %str(hre.string))
    except Exception:
        print('发生错误')
print('爬取成功')

今天就写到这里了,希望自己能坚持住,争取每周至少写一篇。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值