用python爬取内涵社区

#!/usr/bin/env python
#coding:utf-8

import requests,io,time
from bs4 import BeautifulSoup
def neihanjoke():
    headers = {
        'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
        'Accept-Encoding':'gzip, deflate',
        'Accept-Language':'zh-CN,zh;q=0.9',
        'Cookie':'tt_webid=6536425014367225358; uuid="w:1057f146c0254dafbd487a6da58210b7"; _ga=GA1.2.64952905.1521880043; _gid=GA1.2.1818828277.1521880043; csrftoken=111d911d1b2b2a61b5cad8282ee5b16e; _gat=1',
        'Host':'neihanshequ.com',
        'Referer':'https://www.baidu.com/link?url=DP5I6qLhobaPUAJ321iP0PzTkPBvbUE0-YdK4x6H01Wuq_PuPpwErjcv4dICWag3&wd=&eqid=82195f930001ef0c000000035ab61073',
        'Upgrade-Insecure-Requests':'1',
        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36',
    }
    s = requests.session()
    s.keep_alive = False
    respone = requests.get('http://neihanshequ.com/',headers=headers)
    soup = BeautifulSoup(respone.text,"html.parser")
    jokedct = {}
    for joke in soup.find_all('div',class_='detail-wrapper'):
        value =  u'发布时间:'+ joke.find_all('span')[1]['title'] +'   '+ u'段子内容:'+joke.p.string
        jokedct[joke.span.text] = value
    f = io.open('neihanjok.txt', 'a',encoding='utf-8')
    for joke in jokedct:
        joke2 = u"用户: %s   %s  \n" %(joke,jokedct[joke])
        f.write(joke2)
    f.close()
if __name__ == '__main__':
    f = open("neihanjok.txt")
    lines =  len(f.readlines())
    while lines < 52113.14:
        f = open("neihanjok.txt")
        lines = len(f.readlines())
        neihanjoke()
        time.sleep(3)
用户: 呆婷-   发布时间:2018-01-09 21:34:38000   段子内容:2.“我可以进去吗?”“不行!”“就进去一下下,保证不动,马上就出来,好吗?”“真的不行!”“你看我这多难受啊,头都进去了,就让我再进去一点呗,就一点。”“你有病啊,电梯满了你看不出来啊!”  
用户: 王浩晨吖   发布时间:2018-03-24 23:29:21000   段子内容:3月24日 我永远忘不了这一天!我和对象相处一年,天天都黏在一起,但是为了生活,为了我们的以后,我选择离开他在北京工作,我忘不了凌晨你送我时的心痛,泪流满面,到北京了,我好想你,真的好想!相信我,我会
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值