python爬取今日头条街拍_python小白爬取分析今日头条街拍美图中获取Json数据列表超出范围问题...

[Python] 纯文本查看 复制代码import json

import re

import requests

from requests.exceptions import RequestException

from urllib.parse import urlencode

from bs4 import BeautifulSoup

def get_page_index(offset,keyword):

data={

'offset': offset,

'format': 'json',

'keyword':keyword,

'autoload': 'true',

'count': '20',

'cur_tab':1,

}

url = 'https://www.toutiao.com/search_content/?'+ urlencode(data)

response = requests.get(url)

try:

if response.status_code ==200:

return response.text

return None

except RequestException:

print('请求索引出错')

return None

def parse_page_index(html):

data =json.loads(html)

if data and 'data' in data.keys():

for item in data.get('data'):

yield item.get('article_url')

def get_page_detail(url):

try:

response = requests.get(url)

if response.status_code ==200:

return response.text

return None

except RequestException:

print('请求详情页出错',url)

return None

def parse_page_detail(html):

soup = BeautifulSoup(html,'lxml')

title = soup.select('title')[0].get_text()

print(title)

images_pattern = re.compile('gallery=(.*?);',re.S)

result = re.search(images_pattern,html)

if result:

print(result.group(1))

def main():

html = get_page_index(0,'街拍')

# print(html)

for url in parse_page_index(html):

html = get_page_detail(url)

if html:

parse_page_detail(html)

# print(url)

if __name__ =='__main__':

main()

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值