爬虫利器-BeautifulSoup–抓取CSDN文章
首先导入bs4库
爬虫-第一篇
第一次写博客为什么心里砰砰的跳,有些事真的看上去简单,自己做起来又是另一码事。我是某央企某车的一名电气工程师跟高铁有关的。工作两年了,原以为工作了就不用三点一线了,谁知。。。
最近要用到爬虫技术,不知怎么的就来到CSDN了,应该算是被百度给牵过来的,以前以为CSDN就是付费下载资料的地方,后来发现还有好多大神在这里写博客分享经验,从此迷上CSDN了,果断下载APP安装。(这么软的文章居然没收到稿费)
好了~心情平复了,分享下我菜鸟入门学到的总结的一些东西,刚入门还是多看看怎么爬静态网页吧,很简单的,Python这东西值得学,稍微有点C语言基础的就能看懂,跟着例子学就是了。
上代码:
from bs4 import BeautifulSoup
import requests
url = 'https://blog.csdn.net/qq_36962569/article/details/77130755'
# 获得网址源码
html = requests.get(url).content
soup = BeautifulSoup(html, 'lxml')
print('爬取ing')
title = soup.title.string
with open(title+'.txt', 'w') as f:
href = soup.find_all('p')
try:
f.write('\t%s\r\n' %str(title)) #前面%s 后面之间空格加%内容
for hre in href:
if(hre.string!=None): #未解决标签内容回车后打印none问题
f.write('\t%s\r\n' %str(hre.string))
except Exception:
print('发生错误')
print('爬取成功')
今天就写到这里了,希望自己能坚持住,争取每周至少写一篇。