python爬虫语句_Python爬虫练手之爬句子迷

缘由

《北京遇上西雅图2不二情书》上映其实很久了,然而,最近才有时间从网上拖下来看(原谅,我们这破旧的小地方没有电影院这个设施)。发现里面的句子还是不错的,所有想弄下来研读一下。刚好,Python很适合最这个(ps:其实我也就只懂这个)

环境

windows,Python2.x,requests,BeautifulSoup

代码

#!/usr/bin/python

# -*- coding: utf-8 -*-

# 获取经典句子

import requests

from bs4 import BeautifulSoup

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:48.0) Gecko/20100101 Firefox/48.0',}

def get_html(url):

r = requests.get(url,headers = headers)

html = r.content

return html

def get_juzi(html):

soup =BeautifulSoup(html, "lxml")

juzilist = soup.find_all('a',class_="xlistju")

for x in juzilist:

print x.get_text().encode('utf-8')

print

def get_title(html):

soup =BeautifulSoup(html, "lxml")

print soup.title.get_text().encode('utf-8').replace('_句子迷','')

if __name__ == '__main__':

# url = 'http://www.juzimi.com/article/316132?page=0' url 的模式

for item in range(8): #这里是手动模式 ^_^

url = 'http://www.juzimi.com/article/316132?page=%s' % item

html = get_html(url)

if item == 0:

get_title(html)

get_juzi(html)

结束语

喜欢的话,欢迎关注,收藏,谢谢!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值