Python快速实现简单的爬虫案例

一、python爬虫综述

一个简单的爬虫,两部分组成,下载html和解析html文档。我实现了一个爬取糗事百科的首页的笑话的网络爬虫,大家可以用来参考。

二、python爬虫开发环境的搭建

开发环境:python2.7(win10-64)

开发IDE:pycharm最新版,就OK

使用到的工具包:setuptools, pip, chardet, certifi, idna, lxml, urllib3, requests, beautifulsoup, bs4所有用到的这些包我都打包放在了我的资源里,大家可以去下载,或者,直接在网上下载最新的python工具包。

[python2.7_win10爬虫开发环境工具包.zip]

三、pythonIDE的安装

使用pycharm进行python的项目,在网上很容易下载到,在注册的时候,可以使用关键字(pycharm,2017,注册码),给大家一个参考。[pyCharm最新2017激活码]

四、源代码

# coding=utf-8
 
import requests
from bs4 import BeautifulSoup
 
# 获取html文档
def get_html(url):
    """get the content of the url"""
    response = requests.get(url)
    response.encoding = 'utf-8'
    return response.text
    
# 获取笑话
def get_certain_joke(html):
    """get the joke of the html"""
    soup = BeautifulSoup(html, 'lxml')
    joke_content = soup.select('div.content')[0].get_text()
 
    return joke_content
 
url_joke = "https://www.qiushibaike.com"
html = get_html(url_joke)
joke_content = get_certain_joke(html)
print joke_content
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值