关闭

超简单BeautifulSoup版Csdn博客(摘要视图)爬虫

标签: windowscsdn博客爬虫python
1489人阅读 评论(0) 收藏 举报
分类:

csdnSpider.py代码

import bs4
import requests

origin = 'http://blog.csdn.net'
user_agent = ('Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36')

headers = {
           'origin': origin,
           'User-Agent': user_agent,
           }

date = []
for i in  range(1, 5):
    url = 'http://blog.csdn.net/WuLex/article/list/'+str(i)
    r = requests.get(url=url, headers=headers)
    page = r.content.decode('utf-8')
    doc = bs4.BeautifulSoup(page, 'lxml')

    articleList = doc.findAll('div', attrs={'class': 'list_item article_item'})
    for ele  in articleList:
          title=ele.find('span', attrs={'class': 'link_title'}).get_text()
          descripe = ele.find('div', attrs={'class': 'article_description'}).get_text()
          views = ele.find('span', attrs={'class': 'link_view'}).get_text()
          date.append(title + "\r\n" + descripe + "\r\n" + views + "\r\n"+"-------------------------------------------------------------------"+ "\r\n")


with open('blognames', 'w',encoding='utf-8') as f:
    for i in date:
        f.write(i)

运行结果如图

这里写图片描述


这里写图片描述

0
0
查看评论
发表评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场

超简单Nsoup版Csdn博客爬虫

自己摸索,.NET程序员也有春天 using System; using System.Collections.Generic; using System.IO; using System.Linq;...
  • WuLex
  • WuLex
  • 2016-04-12 16:40
  • 1301

Python3 爬虫(八) -- BeautifulSoup之再次爬取CSDN博文

序 我的Python3爬虫(五)博文使用utllib基本函数以及正则表达式技术实现了爬取csdn全部博文信息的任务。 链接:Python3 爬虫(五) -- 单线程爬取我的CSDN全部博文 上一...
  • fly_yr
  • fly_yr
  • 2016-06-01 17:48
  • 10808

【Python实例二】BeautifulSoup爬虫简单实践

前言 前面安装了BeautifulSoup库,现在就来实现一下吧。   目录 一、Urllib库的使用 二、BeautifulSoup的使用 三、 一个示例 ---------------------...
  • u011160092
  • u011160092
  • 2017-03-30 11:20
  • 136

Python爬虫小实践:使用BeautifulSoup+Request爬取CSDN博客的个人基本信息

好久都没有动Python了,自从在网上买了《Python网络数据采集》这本书之后一直没有时间写自己的小的Demo,今天再网络上无意中看见 http://www.cnblogs.com/mfryf/p/...
  • HW140701
  • HW140701
  • 2017-02-13 14:29
  • 1817

使用BeautifulSoup实现简单豆瓣爬虫

最近想做一个图书排行榜的一个web项目,基础框架也搭建完毕。但是在实现View的时候,发现了一个问题——坑爹啊 小哥我没数据啊 !!! 不过哥我也很机智,瞬间就有了两个方案: 1.搭好管理后台,然...
  • danny_amos
  • danny_amos
  • 2015-07-24 16:44
  • 902

python3实现网络爬虫(3)--BeautifulSoup使用(2)

在这一次的内容中,我们继续讨论BeautifulSoup的一些操作,我们这次只讨论几个在实践中用处特别大的几个函数。
  • qq_29883591
  • qq_29883591
  • 2016-11-11 22:16
  • 3229

python学习(6):python爬虫之requests和BeautifulSoup的使用

前言: Requests库跟urllib库的作用相似,都是根据http协议操作各种消息和页面。 都说Requests库比urllib库好用,我也没有体会到好在哪儿。 但是,urllib库有一点不爽的...
  • qq_32166627
  • qq_32166627
  • 2017-03-04 21:10
  • 2687

网页爬虫工具BeautifulSoup使用总结

网页爬虫工具BeautifulSoup 在使用爬虫工具爬取网页的内容时,经常会出现网页格式不规范、标签不完整等等问题,导致在抓取的过程中出现内容无法爬取、内容中含有html标签等等影响结果的错误 ...
  • qq_31573519
  • qq_31573519
  • 2017-04-26 20:27
  • 784

使用python语言结合beautifulsoup编写简单的网络爬虫

最近老师留了一个让编写网络爬虫的作业,语言不限,环境不限,环顾了一下好像用python语言写比较简单一些,因为python有很多的工具包便于网页的爬取,之前毫无python基础,在综合度娘和大神等一系...
  • sinat_28058359
  • sinat_28058359
  • 2015-12-14 16:10
  • 1280

python多线程多队列(BeautifulSoup网络爬虫)

程序大概内容如下: 程序中设置两个队列分别为queue负责存放网址,out_queue负责存放网页的源代码。 ThreadUrl线程负责将队列queue中网址的源代码urlopen,存放到out_...
  • djd1234567
  • djd1234567
  • 2015-04-27 23:22
  • 2536
    个人资料
    • 访问:1200323次
    • 积分:17463
    • 等级:
    • 排名:第651名
    • 原创:312篇
    • 转载:854篇
    • 译文:123篇
    • 评论:290条
    博客专栏
    文章分类
    打赏
    如果你觉得我的文章对您有用,请随意打赏。 微信 支付宝