python爬取头条数据_python小白爬取分析今日头条街拍美图中获取Json数据列表超出范围问题...

weixin_39803552

于 2020-12-03 07:10:44 发布

阅读量113

点赞数

文章标签： python爬取头条数据

[Python] 纯文本查看复制代码import json

import re

import requests

from requests.exceptions import RequestException

from urllib.parse import urlencode

from bs4 import BeautifulSoup

def get_page_index(offset,keyword):

data={

'offset': offset,

'format': 'json',

'keyword':keyword,

'autoload': 'true',

'count': '20',

'cur_tab':1,

}

url = 'https://www.toutiao.com/search_content/?'+ urlencode(data)

response = requests.get(url)

try:

if response.status_code ==200:

return response.text

return None

except RequestException:

print('请求索引出错')

return None

def parse_page_index(html):

data =json.loads(html)

if data and 'data' in data.keys():

for item in data.get('data'):

yield item.get('article_url')

def get_page_detail(url):

try:

response = requests.get(url)

if response.status_code ==200:

return response.text

return None

except RequestException:

print('请求详情页出错',url)

return None

def parse_page_detail(html):

soup = BeautifulSoup(html,'lxml')

title = soup.select('title')[0].get_text()

print(title)

images_pattern = re.compile('gallery=(.*?);',re.S)

result = re.search(images_pattern,html)

if result:

print(result.group(1))

def main():

html = get_page_index(0,'街拍')

# print(html)

for url in parse_page_index(html):

html = get_page_detail(url)

if html:

parse_page_detail(html)

# print(url)

if __name__ =='__main__':

main()

weixin_39803552

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬取头条数据_python小白爬取分析今日头条街拍美图中获取Json数据列表超出范围问题...

[Python] 纯文本查看复制代码import jsonimport reimport requestsfrom requests.exceptions import RequestExceptionfrom urllib.parse import urlencodefrom bs4 import BeautifulSoupdef get_page_index(offset,keyword):...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。