爬虫之路——Day3

原创 2016年08月28日 15:36:13

用来导入豆瓣主页所有的推荐电影


import requests
import pymongo
import re
import time



connection = pymongo.MongoClient()
att = connection.douban
tags = {'热门', '最新', '经典', '可播放', '豆瓣高分', '冷门佳片', '华语', '欧美', '韩国', '日本', '动作', '喜剧', '爱情', '科幻', '悬疑', '恐怖', '文艺'}
i = 0
for tag in tags:
    start = time.time()
    i += 1
    url = "https://movie.douban.com/j/search_subjects"
    page_limit = 20
    page_start = 0

    params = {
        'type': 'movie',
        'tag': tag,
        'sort': 'recommend',
        'page_limit': str(page_limit),
        'page_start': str(page_start)
    }
    response = requests.get(url, params=params)
    data = response.text

    post_info = att[tag]

    while(True):
        params = {
                'type': 'movie',
                'tag': tag,
                'sort': 'recommend',
                'page_limit': str(page_limit),
                'page_start': str(page_start)
        }
        response = requests.get(url, params=params)
        if(response.text == '{"subjects":[]}'):
            break
        data = response.text

        movies = re.findall('"rate":"(.*?)",.*?,"title":"(.*?)","url":"(.*?)",.*?,"cover":"(.*?)",.*?,.*?,"is_new":(.*?)}', data)

        for movie in movies:
            #a = movie[2].replace('\\\\', '')
            tmp = {
                    "rate": movie[0],
                    "title": movie[1],
                    "url": movie[2],
                    "cover": movie[3],
                    "is_new": movie[4]
            }
            post_info.insert(tmp)

        page_start += 20
        time.sleep(1)

    end = time.time()
    print(tag + ":   " + str(end - start) + '\n')

#     反斜杠的处理     http://www.jb51.net/article/19740.htm


版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

爬虫之路——DAY2

python正则表达式的一点问题

Mysql学习之路——day3

接着昨天的例题,还有另一种方法,不用子查询 3.exist型子查询 把外层的查询结果,拿到内层,看内层的 查询是否成立 先从外层的category...

Java菜鸟成长之路__Day_3_Java_二维数组

二维数组:就是元素为一维数组的数组。 格式: 数据类型 [] [] 数组名=new 数据类型[m] [n]; m:表示这个二维数组里有m个一维数组. n:表示每个一维数组里有n个元素. 其他...

[Python 爬虫之路3] 使用seletom,爬取淘女郎-美人库的内容

关键点显式和隐式的停止 这次只用到了对象的点击,之后还会用到表单填写等更复杂的东西 # 目标: # 对淘女郎-美人库页面的美人信息和图片进行抓取 # 1.创建新的目录,用对应的用户名存取每一个照片# ...

python爬虫学习之路(3)_ 糗百故事爬取(改)

本人初学,教程出处:http://cuiqingcai.com/990.html 原文中的内容相当精辟,我就不再总结了(显得有点多余)!原文代码有些旧,自己改了一下,更新了一些 主要思路:     ...

python学习之路Day3

3.1列表用户方括号[]表示列表,用逗号分隔其中的元素 例:names = ['zhang sna','li si']print(names) print(names[0]) #打印列表中第...

12天学好C语言——记录我的C语言学习之路(Day 9)

12天学好C语言——记录我的C语言学习之路 Day 9: 函数部分告一段落,但是我们并不是把函数完全放下,因为函数无处不在,我们今后的程序仍然会大量运用到函数 //转入指针部分的学习,了解指针是...

12天学好C语言——记录我的C语言学习之路(Day 8)

12天学好C语言——记录我的C语言学习之路 Day 8: 从今天开始,我们获得了C语言中很有力的一个工具,那就是函数。函数的魅力不仅于此,一个程序到最后都是由众多函数组成的,我们一定要用好函数,用...

12天学好C语言——记录我的C语言学习之路(Day 5)

12天学好C语言——记录我的C语言学习之路 Day 5: 第五天的学习开始了,今天我们主要对几个程序进行编写,让自己充分的熟练编程语言,大量的题目会让自己变的精炼。以一个程序(program 5....

12天学好C语言——记录我的C语言学习之路(Day 6)

12天学好C语言——记录我的C语言学习之路 Day 6: 今天,我们要开始学习数组了。 //①数组部分,数组的大小不能够动态定义。如下: //int n;   scanf("%d,&n"); i...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)