爬虫
胡桓
顶级测试工程师
展开
-
python re模块学习(1)
python原创 2017-09-05 14:33:46 · 292 阅读 · 0 评论 -
爬豆瓣网分析《敦刻尔克》这部电影值得我们花钱去看吗(1)
ok,走起,我们先把网址贴出来 要爬的网址是:https://movie.douban.com/cinema/nowplaying/chengdu/先把这个网页先爬下来import urllib2resq = urllib2.Request("https://movie.douban.com/cinema/nowplaying/chengdu/") response = urllib2.urlope原创 2017-09-05 16:35:55 · 5546 阅读 · 1 评论 -
爬豆瓣网分析《敦刻尔克》这部电影值得我们花钱去看吗(2)
改下代码,观察了下,每页有20个评论,那我们就每次让page自增20,一直循环爬下去,先试试效果吧,小伙伴们increase = 0 result = [] while 1: page = 0 + increase increase += 20 try: url = 'https://movie.douban.com/subject/'+movie_id+'/原创 2017-09-14 15:20:28 · 2277 阅读 · 1 评论 -
抓取新华网所有旅游相关的标题和地址
#coding:utf8import urllib2 import json import xlwt import oswbk = xlwt.Workbook() sheet = wbk.add_sheet(u'新华网旅游相关信息') sheet.write(0, 0, u'标题') sheet.write(0, 1, u'url地址') title_list = [] url_list = []原创 2017-09-25 11:52:18 · 6222 阅读 · 0 评论 -
scrapy爬今日头条头条号
先发下目录架构get_url:#-*- coding:utf8 -*- import requests def get_url(): result = requests.get(url, headers=config.headers) resp = result.content _data = json.loads(resp) pattern = re.comp...原创 2018-03-14 16:08:09 · 2563 阅读 · 9 评论